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gsj (57) Abstract: The invention concerns a method for preparing nucleic acids from an environment sample, more particularly a method 
for obtaining a library of nucleic acids from a sample. The invention also concerns nucleic acids of nucleic acid libraries obtained 
by said method their use in the synthesis of novel compounds, in particular novel compounds of therapeutic interest. The invent 
further concerns novel means used in the method for obtaining said nucleic acids, such as novel vectors and novel processes for 
preparing such vectors or recombinant host cells containing said nucleic acid. Finally, the invention concerns methods for detecting 
a nucleic acid of interest within a library of nucleic acids resulting from said method, and nucleic acids detected by said method and 

^ polypeptides encoded by said nucleic acids. 

f- 

(57) Abreg£: La presente invention concerne un procfide' de preparation d'acides nucleiques a partir d'un echantillon de l'environ- 
nement, plus particulierement un precede d'obtention d'une collection d'acides nucleiques a partir d'un echantillon. L'invention 
^ est egalement relative aux acides nucleiques ou aux collections d'acides nucleiques obtenus selon le procede et leur application a 
— » la synthese de nouveaux composes, notamment de nouveaux composes d'interet therapeutique. L'invention a egalement pour objet 
les moyens nouveaux mis en oeuvre dans le prooSde' d'obtention d'acides nucleiques ci-dessus, tels que de nouveaux vecteurs et des 
nouveaux process de preparation de tels vecteurs ou encore des cellules hdtes recombinantes comprenant un acide nucleique de 
Q l'invention. L'invention concerne encore des precedes pour detecter un acide nucleique d'interet au sein d'une collection d'acides 
£>• nucleiques obtenus selon le precede' ci-dessus, ainsi que les acides nucleiques d&ectes par un tel proc6d6 et les polypeptides codes 
^ par de tels acides nucleiques. 
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Procede d'obtention d'acides nucleiques a partir d'un 
echantillon de I'environnement, acides nucleiques ainsi obtenus 
et leur application a la synthese de nouveaux composes 

5 La presente invention concerne un procede de preparation 

d'acides nucleiques a partir d'un echantillon de I'environnement, plus 
particulierement un procede d'obtention d'une collection d'acides 
nucleiques a partir d'un echantillon. L'invention est egalement relative 
aux acides nucleiques ou aux collections d'acides nucleiques obtenus 

10 selon le procede et leur application a la synthese de nouveaux 
composes, notamment de nouveaux composes d'interet therapeutique. 

L'invention a egalement pour objet les moyens nouveaux mis 
en oeuvre dans le procede d'obtention d'acides nucleiques ci-dessus, 
tels que de nouveaux vecteurs et des nouveaux precedes de preparation 

15 de tels vecteurs ou encore des cellules botes recombinantes 
comprenant un acide nucleique de l'invention. 

L'invention concerne encore des precedes pour detecter un 
acide nucleique d'interet au sein d'une collection d'acides nucleiques 
obtenus selon le procede ci-dessus, ainsi que les acides nucleiques 

20 detectes par un tel procede et les polypeptides codes par de tels acides 
nucleiques. 

L'invention a egalement trait a des acides nucleiques obtenus 
et detectes selon les procedes ci-dessus, en particulier des acides 
nucleiques codant pour une enzyme participant a la vote de biosynthese 

25 d'antibiotiques tels que les p-lactames, les aminoglycosides, les 
nucleotides heterocycliques ou encore des polyketides ainsi que 
I'enzyme codee par ces acides nucleiques, les polyketides produits 
gr§ce a I'expression de ces acides nucleiques et enfin des compositions 
pharmaceutiques comprenant une quantite pharmacologiquement active 

30 d'un polyketide produit grace a I'expression de tels acides nucleiques. 

Depuis la decouverte de la production de la streptomycine par 
les actinomycetes, la recherche de nouveaux composes d'interdt 
therapeutique, et tout particulierement de nouveaux antibiotiques, a eu 
recours de maniere accrue a des methodes de criblage des metabolites 

35 produits par les micro-organismes du sol. 
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De telles methodes consistent principalement a isoler les 
organismes de la microflora tellurique, a les cultiver sur des milieux 
nutritifs specialement adaptes puis a detecter une activite 
pharmacologique dans les produits retrouves dans les surnageants de 
5 culture ou dans les lysats cellulaires ayant, le cas echeant, subi au 
prealable une ou plusieurs etapes de separation et/ou de purification. 

Ainsi, les methodes d'isolement et de culture in vitro des 
organismes constituant la microflore tellurique ont permis, a la date 
d'aujourd'hui, de caracteriser environ 40.000 molecules, dont environ la 
10 moitie presente une activite biologique. 

Des produits majeure ont ete caracterises selon de telles 
methodes de culture in vitro, tels que des antibiotiques (penicilline, 
erythromycine, actinomycine, tetracycline, cephalosporine), des anti- 
cancereux, des anticholesterolemiants ou encore des pesticides. 
15 Les produits d'interet therapeutique d'origine microbienne 

connus a ce jour proviennent majoritairement (environ 70%) du groupe 
des actinomycetes et plus particulierement du genre Streptomyces. 
Toutefois, d'autres composes therapeutiques, tels que les teicoplanines, 
la gentamycine et les spinosines, ont ete isoles a partir de micro- 
20 organismes de genres plus difficites a cultiver tels que Micromonospora, 
Actinomadura, Actinoplanes, Nocardia, Streptosporangium, 
Kitasatosporia ou encore Saccharomonospora. 

Mais la pratique illustre le fait que la caracterisation de 
nouveaux produits naturels synthetises par les organismes de la 
25 microflore du sol est restee limitee, en partie du fait que I'etape de 
culture in vitro aboutit le plus souvent a une selection d'organismes deja 
connus anterieurement. 

Les methodes de separation et de culture in vitro des 
organismes telluriques en vue d'identifier de nouveaux composes 
30 d'interet presentent done de nombreuses limites. 

Chez les actinomycetes, par exemple, le taux de redecouverte 
d'antibiotiques deja connus anterieurement est d'environ 99%. En effet, 
des techniques de microscopie en fluorescence ont permis de 
denombrer plus de 10 10 cellules bacteriennes dans 1g de sol, alore que 
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seulement 0,1 a 1% de ces bacteries peuvent etre isolees apres 
ensemencement sur des milieux de culture. 

A I'aide de techniques de cinetique de reassociation d'ADN, il a 
pu etre montre qu'entre 12.000 et 18.000 especes bacteriennes peuvent 
5 etre contenues dans 1g de sol, alors qu'a ce jour, seuls 5000 micro- 
organismes non eucaryotes ont ete d6crits, tout habitat confondu. 

Des etudes d'ecologie moleculaire ont permis d'amplifier et 
doner de nombreuses sequences nouvelles d'ADNr 16S & partir d'ADN 
de I'environnement. 

10 Les resultats de ces etudes ont conduit a tripler le nombre de 

divisions bacteriennes caracterisees anterieurement. 

A la date d'aujourd'hui, les bacteries sont subdivisees en 40 
divisions, certaines d'entre elles n'etant constitutes que par des 
bacteries ne pouvant etre cultivees. Ces derniers resultats temoignent de 
is I'ampleur de la biodiversite microbienne restee inexploitee a ce jour. 

Des travaux recents ont tente de surmonter les nombreux 
obstacles a I'acces a ia biodiversite de la microflore du sol, dont 
notamment I'etape de culture in vitro prealable a I'isolement et la 
caracterisation de composes d'interet industriel, surtout d'interet 
20 therapeutique. 

Des methodes ont ainsi ete mises au point qui incluent une 
etape d'extraction de I'ADN des organismes telluriques, le cas echeant 
apres un isolement prealable des organismes contenus dans les 
echantillons de sol. 

25 L'ADN ainsi extrait, apres lyse des cellules bacteriennes sans 

etape prealable de culture in vitro, est clone dans des vecteurs utilises 
pour transfecter des organismes hotes, afin de constituer des banques 
d'ADN provenant de bacteries du sol. 

Ces banques de clones recombinants sont utilisees pour 

30 d6tecter la presence de genes codant pour des composes d'interet 
therapeutique ou alternativement pour detecter la production de 
composes d'interet therapeutique par ces clones recombinants. 

Toutefois, les methodes d'acces direct a I'ADN de la microflore 
du sol, decrites dans I'etat de la technique presentent des inconvenients 

35 lors de la mise en oeuvre de chacune des etapes decrites ci-dessus, de 
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nature a affecter considerablement la quantite et la qualite du materiel 
genetique obtenu et exploitable. 

L'etat de la technique concernant chacune des etapes de 
construction de banques d'ADN provenant d'echantillons de sol est 
5 detaille ci-apres, ainsi que les inconvenients techniques identifies par le 
demandeur et qui ont ete surmontes selon la presente invention. 



1. Etape d'extraction de I'ADN a partir d'un echantillon du 

io sol. 

1.1 Extraction directe d'ADN de I'envlronnement 

II s'agit pour I'essentiel d'un procede mettant en oeuvre des 

15 techniques d'extraction d'ADN realisees directement sur I'echantillon 
dans I'environnement, le plus souvent apres une lyse in situ prealable 
des organismes de I'echantillon. 

De telles techniques ont ete mises en oeuvre sur des 
echantillons provenant de milieux aquatiques, que ce soit d'eau douce 

20 ou marine. Elles comprennent une premiere etape de concentration 
prealable des cellules presentes librement ou sous forme de particules, 
consistant en general en une filtration de grands volumes d'eau sur 
differents dispositifs de filtration, par exemple filtration classique sur 
membrane, filtration tangentielle ou rotationnelle ou encore ultrafiltration. 

25 La taille des pores est comprise entre 0,22 et 0,45 mm et 

necessite souvent une prefiltration dans le but d'eviter des colmatages 
dus au traitement de grands volumes. 

Dans un second temps, les cellules recoltees sont lysees 
directement sur les filtres dans des petits volumes de solutions, par 

30 traitement enzymatique et/ou chimique. 

Cette technique est par exemple illustree par les travaux de 
STEIN et al. , 1996, Journal of Bacteriology, Vol.178 (3): 591-599 qui 
decrit le clonage de genes codant pour de I'ADN ribosomal et pour un 
facteur d'elongation de la transcription (EF 2) a partir d'Archaebacteries 

35 du plancton marin. 
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Des techniques d'extraction directe d'ADN a partir 
d'echantillons de sol ou de sediment ont ete egalement decrites, basees 
sur des protocoles de lyse physique, chimique ou enzymatique realisee 
in situ. 

5 Par exemple, le brevet US N°5,824,485 (Chromaxome 

Corporation) decrit une lyse chimique des bacteries directement sur 
1'echantillon preleve par addition d'un tampon de lyse chaud a base 
d'isothiocyanate de guanidium. 

La demande Internationale n°WO 99/20.799 (WISCONSIN 
l.o ALUMNI RESEARCH FOUNDATION) decrit une etape de lyse des 
bacteries in situ a I'aide d'un tampon d'extraction contenant une 
protease et du SDS. 

D'autres techniques ont egalement ete utilisees telles que la 
realisation de plusieurs cycles de congelation-decongelation de 
is 1'echantillon puis pressage de 1'echantillon decongele a haute pression. 
Ont ete egalement utilisees des techniques de lyse des bacteries a I'aide 
d'une succession d'etapesde sonication, de chauffage par micro-ondes 
et de chocs thermiques (PICARD et al. (1992). 

Toutefois, les techniques d'extraction directe d'ADN de I'etat de 
20 la technique decrites ci-dessus ont une efficacite tres variable du point 
de vue quantitatif et qualitatif. 

Ainsi, les traitements chimiques ou enzymatiques in situ de 
1'echantillon ont le desavantage de ne lyser que certaines categories de 
micro-organismes du fait de la resistance selective des differents micro- 
25 organismes indigenes a I'etape de lyse en raison de leur morphologie 
heterogene. 

Ainsi, les bacteries a Gram-positif resistent a un traitement a 
chaud au detergent SDS alors que la quasi-totalite des cellules a Gram- 
negatif sont lysees . 
30 En outre, certains des protocoles d'extraction directe decrits ci- 

dessus favorisent I'adsorption des acides nucleiques extraits sur les 
particules minerales de 1'echantillon, reduisant ainsi significativement la 
quantite d'ADN accessible. 

Par ailleurs, si certains protocoles de I'etat de la technique 
35 divulguent une etape de traitement mecanique pour lyser les micro- 
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organismes de I'echantillon preleve, une telle etape de lyse mecanique 
est systematiquement effectuee en milieu liquide dans un tampon 
d'extraction, ce qui ne permet pas une bonne homogeneisation de 
I'echantillon de depart sous la forme de particules fines permettant une 
5 accessibility maximale a la diversity des organismes presents dans 
I'echantillon. Des essais de broyage ont egalement ete effectues sur 
echantillon de sol brut a I'aide de billes de verre, mais la quantite d'ADN 
extrait etait faible. 

II a ete observe selon invention qu'une premiere etape de lyse 
10 mecanique in situ en milieu liquide avait des effets negatifs sur la 
quantite d'ADN susceptible d'etre extrait. 

La quantite d'ADN directement utilisable pour le clonage dans 
des vecteurs recombinants est egalement tributaire des etapes de 
purification subsequentes a son extraction, 
is Dans I'etat de la technique, I'ADN extrait est ensuite purifie, par 

exemple par ('utilisation de.polyvinylpolypyrrolidone, par une precipitation 
en presence d'acetate d'ammonium ou de potassium, par des 
centrifugations sur gradient de chlorure de cesium, ou encore des 
techniques chromatographiques, notamment sur support 
20 d'hydroxyapatite, sur colonne echangeuse d'ions ou encore tamisage 
moleculaire ou par des techniques d'electrophorese sur gel d'agarose. 

Les techniques de purification d'ADN decrites anterieurement, 
surtout lorsque celles-ci sont combinees avec les techniques d'extraction 
d'ADN de I'environnement precitees, sont susceptibles de conduire a 
25 une co-purification de I'ADN avec des composes inhibiteurs provenant 
de I'echantillon initial qui sont difficiies a eliminer. 

La co-extraction de composes inhibiteurs avec I'ADN necessite 
la multiplication du nombre d'etapes de purification ce qui conduit a des 
pertes importantes de I'ADN initialement extrait et reduit simultanement 
30 la diversity du materiel genetique initialement contenu dans rechantillon, 
ainsi que sa quantite. 

Un autre but de I'invention a ete de surmonter les inconvenients 
des protocoles de purification anterieurs et de mettre au point une etape 
de purification d'ADN permettant de maintenir de maniere optimale la 



WO 01/40497 



7 



PCT/FR00/03311 



diversite de I'ADN de I'echantillon initial, d'une part, et, de favoriser 
quantitativement son obtention, d'autre part. 

Tout particulierement, les ameliorations qualitatives et 
quantitatives a la purification d'ADN sont maximales lorsqu'elles font 
5 appel a une combinaison d'un procede d'extraction direct de I'ADN selon 
I'invention et d'un procede de purification ulterieur, comme cela sera 
decrit ci-apres. 

1.2. Extraction indirecte d'ADN de I'environnement. 

10 

De telles techniques ont recours a une premiere etape de 
separation des differents organismes de la microflora tellurique des 
autres constituants de I'echantillon de depart, prealablement a l'etape 
d'extraction de I'ADN proprement dite. 

15 Dans I'etat de la technique, la separation prealable d'une 

fraction microbienne d'un echantillon de sol comprend le plus souvent 
une dispersion physique de I'echantillon par broyage de ce dernier en 
milieu liquide, par exemple en utilisant des dispositifs du type Waring 
Blender ou encore un mortier. 

20 II a egalement ete decrit des dispersions chimiques, par 

exemple sur des resines echangeuses d'ions ou encore des dispersions 
a I'aide de detergents non specifiques tels que le deoxycholate de 
sodium ou du polyethylene glycol. Quel que sort le mode de dispersion, 
I'echantillon solide doit etre mis en suspension dans de I'eau, du tampon 

25 phosphate ou une solution saline. 

L'etape de dispersion physique ou chimique peut etre suivie 
d'une centrifugation sur gradient de densite permettant la separation des 
cellules contenues dans I'echantillon et des particules de ce dernier, 
etant entendu que les bacteries ont des densites inferieures a celles de 

30 la plupart des particules du sol. 

L'etape de dispersion physique peut aussi etre suivie 
alternativement d'une etape de centrifugation a faible vitesse ou encore 
une etape d'elutriation cellulaire. 

L'ADN peut ensuite etre extrait des cellules separees par toutes 
. 35 les methodes de lyse disponibles et etre purifie par de nombreuses 
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methodes, y compris les methodes de purification decrites au 
paragraphe 1.1 precedent. Notamment, I'inclusion des cellules dans de 
I'agarose a bas point de fusion peut §tre realisee afin de menager la 
lyse. 

5 Toutefois, les methodes decrites dans I'etat de la technique 

connues du demandeur ne donnent pas satisfaction du fait de la 
presence, dans les fractions contenant I'ADN extrait, de constituants 
indesirables de I'echantillon de depart ayant une influence significative 
sur la qualite et la quantite d'ADN final. 

10 La presente invention se propose de resoudre les difficultes 

techniques rencontrees dans les precedes de I'art anterieur comme cela 
sera decrit ci-apres. 

2. Caracterisation moleculaire de I'ADN extrait. 

15 

Lorsque Ton desire construire une banque d'ADN a partir d'un 
echantillon de I'environnement, en particulier a partir d'un echantillon de 
sol, il est avantageux de verifier la qualite et la diversite de la source 
d'ADN extrait et purifie prealablement a son insertion dans des vecteurs 

20 appropries. 

L'objectif d'une telle caracterisation moleculaire de I'ADN extrait 
et purifie est d'obtenir des profils representant les proportions des 
differents taxons bacteriens presents dans cet extrait d'ADN. La 
caracterisation moleculaire de I'ADN extrait et purifie permet de 

25 determiner si des artefacts ont ete introduits lors de la mise en oeuvre 
des differentes etapes d'extraction et de purification et, le cas echeant, si 
la diversite d'origine de I'ADN extrait et purifie est representative de la 
diversite microbienne presente initialement dans I'echantillon, 
notamment dans I'echantillon de sol. 

30 A la connaissance du demandeur, il est recouru dans I'etat de 

la technique a des precedes d'hybridation quantitative mettant en oeuvre 
des sondes oligonucleotidiques specifiques de differents groupes 
bacteriens, appliques directement a I'ADN extrait de 1'environnement. 
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Malheureusement, une telle approche est peu sensible et ne 
permet pas de detecter des genres ou des groupes taxonomiques 
presents en faible abondance. 

L'etat de la technique decrit aussi des procedes de PCR 
5 quantitative, telle que la MPN-PCR ou encore la PCR quantitative par 
competition. Toutefois, ces techniques presentent d'importants 
inconvenients. 

Ainsi, la MPN-PCR est d'une utilisation complexe du fait de la 
multiplication des dilutions et des repetitions qui la rend inappropriee 

10 pour un grand nombre d'echantillons ou de couples d'amorces. 

Par ailleurs, la PCR quantitative par competition est d'une mise 
en oeuvre difficile du fait de la necessite de construire un competiteur 
specifique a I'ADN cible qui, en outre, n'induit pas de biais ou d'artefacts 
dans la competition proprement dite. 

is II est ainsi propose selon I'invention un procede de precriblage 

d'une banque d'ADN provenant d'un echantillon de I'environnement qui 
est a la fois rapide, simple et fiable et permet de tester la qualite de 
I'ADN prealablement extrait et purifie et de determiner ainsi I'interet de 
construire une banque de clones prepares a partir de cet ADN purifie de 

20 depart. 

3. Vecteurs pour le clonaqe de I'ADN extrait et purifie a 
partir d'un echantillon de renvironnement . 

25 De nombreux vecteurs ont deja ete decrits dans l'etat de la 

technique afin de doner de I'ADN prealablement extrait d'un echantillon 
de I'environnement. 

Ainsi, selon la description de la demande internationale n°WO 
99/20.799, peuvent etre utilises des vecteurs viraux, des phages, des 

30 plasmides, des phagemides, des cosmides, des phosmides, des 
vecteurs du type BAC (chromosome artificiel bacterien) ou encore le 
bacteriophage P1, des vecteurs de type PAC (chromosome artificiel 
base sur le bacteriophage P1), des vecteurs du type YAC (chromosome 
artificiel de levure), des plasmides de levure ou tout autre vecteur 
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capable de maintenir et d'exprimer de maniere stable un ADN 
genomique. 

L'exemple 1 de la demande PCT n°WO 99/20.799 decrit la 
construction d'une banque d'ADN genomique par clonage dans un 
5 vecteur du type BAC. 

A la connaissance du demandeur, aucune banque d'ADN 
provenant d'un echantillon de I'environnement n'avait encore ete 
effectivement realisee avec des vecteurs de type conjugatif, une telle 
technique etant rendue pour la premiere fois accessible et reproductible 
io par I'homme du metier grace a I'enseignement de la presente invention. 

4. Hotes cellulaires 

Dans I'etat de la technique, de nombreuses cellules hotes ont 
15 ete decrites comme pouvant etre utilisees afin d'heberger les vecteurs 
contenant les inserts d'ADN provenant de I'ADN extrait et purifie a partir 
d'un echantillon de I'environnement. 

Ainsi, la demande PCT N°WO 99/20.799 cite de nombreux 
hStes cellulaires appropries, tels que Escherichia coli, en particulier la 
20 souche DH 10B ou encore la souche 294 (ATCC 31446, la souche E. 
coli B, E. Coli X 1776 (ATCC N°31.537), E.coli DH5 a et E.coli W3110 
(ATCC n°27.325). 

Cette demande PCT cite egalement d'autres cellules hotes 
appropriees telles que Enterobacter, Erwinia, Klebsiella, Proteus, 
25 Salmonella, Serratia, Schigella ou encore des souches du type bacillus 
telles que B. subtilis et B. licheniformis ainsi que les bacteries du genre 
Pseudomonas, Streptomyces ou Actinomyces. 

Le brevet US N°5, 824,485 cite en particulier la souche de 
Streptomyces lividans TK66 ou encore des cellules de levure telles que 
30 celles de Saccharomyces pombe. 

5. Caracterisation de genes d'interet dans des banques 
d'ADN provenant d'un echantillon de I'environnement 
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La demande PCT N° WO 99/20.799 decrit une identification du 
phenotype de differents clones appartenant a la banque d'ADN de 
B.cereus, respectivement un clone produisant de I'hemolysine, un clone 
hydrolysant I'esculine ou encore un clone produisant un pigment orange. 
5 Des techniques de mutagenese basees sur I'utilisation d'un 

transposon codant pour I'enzyme pho A ont permis subsequemment 
d'isoler des clones mutes et de caracteriser les sequences responsables 
des phenotypes observes. 

L'article de STEIN et al. (1996) precite decrit I'utilisation 

10 d'amorces specifiques de I'ADN ribosomal afin d'amplifier I'ADN insere 
dans les vecteurs heberges par certains clones d'une banque d'ADN 
genomique d'Archaebacteries de plancton marin et ridentification de 
plusieurs sequences codantes dans I'ADN ainsi amplifie. 

L'article de BORSCHERT S. et al., (1992) decrit le criblage 

15 d'une banque d'ADN genomique de Bacillus subtilis a I'aide de couples 
d'amorces hybridant avec des regions conservees de peptide 
synthetases connues aftn d'identifier un ou plusieurs genes 
correspondant dans le genome de Bacillus subtilis. 

Cette technique a permis de detecter un fragment d'ADN 

20 chromosomique d'environ 26 kb portant une partie de I'operon de 
biosynthese de la surfactine. 

L'article de KAH-TONG S. et al.(1997) decrit le criblage d'une 
banque d'ADN provenant du sol a I'aide d'amorces hybridant avec des 
sequences conservees de I'operon responsable de la voie de 

25 biosynthese des polyketides de type II et montre ("identification, au sein 
de cette banque d'ADN, de sequences apparentees au gene PKS-p. Cet 
article decrit aussi la construction de cassettes d'expression hybrides 
dans lesquelles la sequence de la sous-unite PKS-p, retrouvee 
naturellement dans I'operon responsable de la biosynthese des 

30 polyketides, a ete remplacee par differentes sequences apparentees 
retrouvees dans la banque d'ADN. 

De meme, l'article de HONG-FU et al. , (1995) decrit la 
construction de cassettes d'expression contenant les differentes phases 
de lecture ouverte de I'operon responsable de la biosynthese des 

35 polyketides, les differentes cassettes d'expression ayant ete construites 
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artificiellement en combinant les phases de lecture ouverte qui ne sont 
pas retrouvees ensemble naturellement dans le genome de 
Streptomyces coelicolor. Cet article montre que la combinaison, dans les 
cassettes d'expression artificielles, de cadres de lecture ouvert 
s originaires de differentes souches bacteriennes permet la production de 
polyketides ayant differentes caracteristiques structurales et des activites 
antibiotiques plus ou moins grandes vis-a-vis de Bacillus subtilis et 
Bacillus cereus. 

Les polyketides font partie d'une grande famille de produits 

10 naturels de structure variable et possedant une grande diversite 
d'activites biologiques. Font partie des polyketides par exemple, les 
tetracyclines et I'erythromycine (antibiotiques), le FK506 
(immunosuppresseur), la doxorubicine (agent anti-cancereux), la 
monensine (un agent coccidiostatique) ainsi que I'avermectine (un agent 

15 antiparasitaire). 

Ces molecules sont synthetisees grace a des enzymes 
multifonctionnelles appetees polyketides synthases, qui catalysent des 
cycles de condensation repetes entre des acyl thioesters (en general des 
acetyl, propionyl, malonyl ou methylmalonyl thioesters). Chaque cycle de 

20 condensation aboutit a la formation, sur une chaine croissante carbonee, 
d'un groupe p-keto qui peut ensuite subir, le cas echeant, une ou 
plusieurs series d'etapes reductrices. 

Compte-tenu de I'interet clinique important des polyketides, leur 
mecanisme commun de biosynthese ainsi que le haut degre de 

25 conservation observe entre les groupes de genes codant pour les 
polyketides synthases, il s'est developpe un interet accru pour le 
developpement de nouveaux polyketides par genie genetique. 

De nouveaux polyketides artificiels ont ainsi ete produits par 
genie genetique, tels que la mederrhodine A ou la dihydrogranatirhodine. 

30 La grande majorite des molecules nouvelles de polyketides obtenues par 
genie genetique sont tres differentes, du point de vue structural, des 
polyketides correspondents naturels. 

De I'etat de la technique, i! ressort ainsi qu'il existe un besoin 
d'obtention de nouveaux polyketides d'interet et tout particulierement de 

35 polyketides d'inter§t therapeutique presentant notamment, par rapport a 
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leurs homologues naturels, un niveau accru d'activite antibiotique ou 
encore un spectre d'activite antibiotique different, soit plus large que 
celui des polyketides connus, soit au contraire plus selectif. 

Ce besoin est, comme cela sera decrit ci-apres, en partie 
5 comble selon la presente invention. 

DESCRIPTION DE L'INVENTION 

L'invention concerne tout d'abord un precede pour la 

10 construction de banques d'ADN provenant d'un echantillon de 
renvironnement, un tel echantillon pouvant etre indifferemment un milieu 
aquatique (eau douce ou marine), un echantillon de sol (couche 
superficielle du sol, sous-sol ou sediments), ou encore un echantillon 
d'organismes eucaryotes contenant une microflore associee, tel que par 

is exemple un echantillon provenant de plantes, d'insectes ou encore 
d'organismes marins et possedant une microflore associee. 

La mise au point d'un precede de construction d'une banque 
d'ADN d'un echantillon de I'environnement, et tout particulierement d'un 
echantillon de sol, comprend des etapes critiques dont la mise en oeuvre 

20 doit etre necessairement optimisee pour I'obtention d'une banque d'ADN 
dont le contenu en acides nucleiques d'interet repond aux objectifs 
initialement fixes. 

Une premiere etape critique consiste en I'extraction et la 
purification ulterieure des acides nucleiques contenus initialement dans 

25 I'echantillon, e'est-a-dire principalement des acides nucleiques contenus 
dans les divers organismes composant la microflore de cet echantillon. 

La qualite de la purification de I'ADN extrait est determinate 
sur le resultat obtenu. 

Une seconde etape importante d'un procede de construction 

30 d'une banque d'acides nucleiques provenant d'un echantillon de 
I'environnement est revaluation de la diversite genetique des acides 
nucleiques extraits et purifies. La mise au point d'une etape de 
realisation simple et fiable de pre-criblage de I'ADN extrait et purifie afin 
de verifier qu'il rend compte, au moins partiellement, de la diversite 

35 phylogenetique des organismes presents initialement dans I'echantillon 
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de depart, permet en effet de determiner I'interet ou non d'utiliser la 
source initiate d'ADN extrait et purifie pour la construction de la banque 
d'acides nucleiques proprement dite ou au contraire de ne pas 
poursuivre la construction de la banque d'acides nucleiques du fait 

5 d'artefacts trap importants introduits au moment de I'extraction et de la 
purification des acides nucleiques. II a en outre ete identifie selon 
I'invention que la qualite des inserts introduits dans les vecteurs pour 
construire la banque est determinate. II a ainsi ete determine que 
I'utilisation d'enzymes de restriction pour diver I'ADN extrait et purifie a 

10 partir de I'echantillon de I'environnement etait de nature a introduire des 
artefacts ou "biais" dans la structure des inserts obtenus. En effet, 
I'ADN extrait du sol ou d'autres environnements, provenant en tres 
grande majorite d'organismes non cultivates, est compose de 
molecules dont le taux de bases G et C est par definition inconnu et de 

is plus variable en fonction de I'origine de ces organismes. 

Une troisieme etape critique est I'insertion des acides 
nucleiques extraits et purifies dans des vecteurs capables d'integrer des 
acides nucleiques de longueur choisie, d'une part, et, d'autre part, d'en 
permettre la transfection ou encore Integration dans le genome dans 

20 des hotes cellulaires determines ainsi que, le cas echeant, d'en 
permettre I'expression dans de tels hdtes cellulaires. 

Constituent des vecteurs d'interet, les vecteurs capables 
d'integrer des acides nucleiques de grande taille, c'est-a-dire de taille 
superieure a 100 kb lorsque I'objectif poursuivi consiste en un clonage et 

25 en une identification d'un.operon complet capable de diriger une voie 
complete de biosynthese d'un compose d'interet industriel, en particulier 
d'un compose d'interet pharmaceutique ou agronomique. 



DEFINITIONS 

Au sens de la presente invention, on entend par " acides 
nucleiques ", " polynucleotides " et " oligonucleotides " aussi bien des 
sequences d'ADN, d'ARN, que des sequences hybrides ARN/ADN de 
plus de 2 nucleotides, indifferemment sous la forme simple brin ou 
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Le terme ■ banque " ou " collection " est utilise dans la presente 
description en reference indifferemment a un ensemble d'acides 
nucleiques extraits et, le cas echeant purifies, provenant d'un echantillon 
de I'environnement, a un ensemble de vecteurs recombinants, chacun 
5 des vecteurs recombinants de I'ensemble comprenant un acide 
nucleique provenant de I'ensemble d'acides nucleiques extraits et, le cas 
echeant purifies precites, ainsi qu'a un ensemble de cellules notes 
recombinantes comprenant un ou plusieurs acides nucleiques provenant 
de I'ensemble des acides nucleiques extraits et, le cas echeant, purifies 

10 precites, lesdits acides nucleiques etant soient portes par un ou 
plusieurs vecteurs recombinants, soit integres dans le genome desdites 
cellules hates recombinantes. 

On designe par "echantillon de I'environnement" 
indifferemment un echantillon d'origine aquatique, par exemple d'eau 

15 douce ou saline, ou un echantillon tellurique provenant de la couche 
superficielle d'un sol, de sediments ou encore de couches inferieures du 
sol (sous-sol), ainsi que des echantillons d'organismes eucaryotes, le 
cas echeant multicellulaires, d'origine vegetale, provenant d'organismes 
marins ou encore d'insectes et possedant une microflore associee, cette 

20 microflore associee constituant des organismes d'interet. 

On entend par "operon" selon I'invention, un ensemble de 
cadres ouverts de lecture dont la transcription et/ou la traduction est co- 
regulee par un ensemble unique de signaux de regulation de la 
transcription et/ou de la traduction. Selon I'invention, un operon peut 

25 egalement comprendre lesdits signaux de regulation de la transcription 
et/ou de la traduction. 

Par ' voie metabolique " aux fins de I'invention ou encore " voie 
de biosynthese " on entend un ensemble de reactions biochimiques 
anaboliques ou cataboliques realisant la conversion d'une premiere 

30 espece chimique en une seconde espece chimique. 

Par exemple, une voie de biosynthese d'un antibiotique est 
constitute de I'ensemble des reactions biochimiques convertissant des 
metabolites primaires en produits intermediates des antibiotiques, puis 
subsequemment en antibiotiques. 
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Par sequence de regulation placee " en phase " (en anglais 
operably linked) par rapport a une sequence nucleotidique dont 
I'expression est recherchee, on signifie que la ou les sequences de 
regulation de la transcription sont localisees, par rapport a la sequence 
5 nucleotidique d'interet dont I'expression est recherchee, de maniere a 
permettre I'expression de ladite sequence d'interet, la regulation de la 
dite expression etant dependants de facteurs interagissant avec les 
sequences nucleotidiques regulatrices. 

Selon une autre terminologie, on peut dire egalement que la 
10 sequence nucleotidique d'interet dont I'expression est recherchee est 
placee " sous le contrdle " des sequences nucleotidiques regulatrices de 
la transcription. 

Le terme " isole " au sens de la presente invention designe un 
materiel biologique qui a ete soustrait a son environnement originel 
is (I'environnement dans lequel il est localise naturellement). 

Par exemple, un polynucleotide ou un polypeptide present a 
I'etat naturel dans un organisme (virus, bacterie, champignon, levure, 
plante ou animal) n'est pas isole. Le meme polypeptide separe de son 
environnement naturel ou le meme polynucleotide separe des acides 
20 nucleiques adjacents au sein desquels il est naturellement insere dans le 
genome de I'organisme, est isole. 

Un tel polynucleotide peut etre inclus dans un vecteur et/ou un 
tel polynucleotide peut etre inclus dans une composition et demeure 
neanmoins a I'etat isole, du fait que le vecteur ou la composition ne 
25 constitue pas son environnement naturel. 

Le terme " purifie " ne necessite pas que le materiel soit present 
sous une forme de purete absolue, exclusif de la presence d'autres 
composes. II s'agit plutot d'une definition relative. 

Un polypeptide ou un polynucleotide est a I'etat purifie apres 
30 purification du materiel de depart d'au moins un ordre de grandeur, de 
preference 2 ou 3 et preferentiellement 4 ou 5 ordres de grandeur. 

Le " pourcentage d'identite" entre deux sequences de 
nucleotides ou d'acides amines, au sens de la presente invention, peut 
etre determine en comparant deux sequences alignees de maniere 
35 optimale, a travers une fenetre de comparaison. 
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La partie de la sequence nucleotidique ou polypeptide dans la 
fenetre de comparaison peut ainsi comprendre des additions ou des 
deletions (par exemple des "gaps") par rapport a la sequence de 
reference (qui ne comprend pas ces additions ou ces deletions) de 
5 maniere a obtenir un alignement optimal des deux sequences. 

Le pourcentage est calcule en determinant le nombre de 
positions auquel une base nucleique ou un residu d'aminoacide 
identique est observe pour les deux sequences (nucleique ou 
peptidique) comparees, puis en divisant le nombre de positions auquel il 

10 y a identite entre les deux bases ou residus d'aminoacides par le nombre 
total de positions dans la fenetre de comparaison, puis en multipliant le 
resultat par 100 afin d'obtenir !e pourcentage d'identite de sequence. 

L'alignement optimal des sequences pour la comparaison peut 
etre realise de maniere informatique a I'aide d'algorithmes connus 

15 contenus dans le package de la Societe WISCONSIN GENETICS 
SOFTWARE PACKAGE, GENETICS COMPUTER GROUP (GCG), 575 
Science Doctor, Madison, WISCONSIN. 

A titre d'illustration, le pourcentage d'identite de sequence 
pourra etre effectue a I'aide du logiciel BLAST (versions BLAST 1 .4.9 de 

20 Mars 1996, BLAST 2.0.4. de Fevrier 1998 et BLAST 2.0.6. de 
Septembre 1998), en utilisant exclusivement les parametres par defaut 
(S.F. Altschul et al„ J. Mol. Biol. 1990 215: 403-410, S. F. Altschul et al., 
Nucleic Acids Res. 1997 25: 3389-3402). Blast recherche des 
sequences similaires/homologues a une sequence " requite " de 

25 reference, a I'aide de I'algorithme d'Altschul et al. La sequence requete 
et les bases de donnees utilisees peuvent etre peptidiques ou 
nucleiques, toute combinaison etant possible. 

EXTRACTION ET PURIFICATION D'ACIDES NUCLEIQUES 
30 PROVENANT D'UN ECHANTILLON DE L'ENVIRONNEMENT. 

1. Extraction directe d'acides nucleiques 

II a ete montre selon la presente invention que, pour I'obtention 
35 d'une banque d'acides nucleiques provenant d'organismes contenus 
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dans un echantillon du sol, il etait important de creer des conditions dans 
lesquelles, d'une part, les different* organismes de I'echantiilon sont 
rendus accessibles aux etapes ulterieures d'extraction des acides 
nucleiques et, d'autre part, que I'etape initiale de traitement de 
5 I'echantiilon de sol permette une lyse mecanique maximale des 
organismes de I'echantiilon de nature a rendre directement accessibles 
les acides nucleiques de ces organismes, principalement I'ADN 
genomique et plasmidique, aux tampons utilises pour les etapes 
ulterieures d'extraction. 
io II a ete ainsi demontre selon invention qu'une accessible 

maximale des acides nucleiques provenant des micro-organismes d'un 
echantillon du sol etait atteinte par un broyage pousse et a sec de 
I'echantiilon de sol prealablement seche afin d'obtenir des micro- 
particules. Le demandeur a ainsi determine que le sechage de 

15 I'echantiilon de sol prealable a tout traitement ulterieur provoque une 
diminution significative de la cohesion de I'echantiilon de sol brut et 
favorise en consequence sa desagregation ulterieure sous la forme de 
micro-particules, lorsqu'un traitement par broyage approprie est opere. 

De maniere surprenante, le demandeur a montre que des 

20 micro-particules d'echantillons de sol sec reunissaient des proprietes 
physico-chimiques favorables a I'extraction d'une quantite optimale 
d'acides nucleiques qui, dans leur nature, pouvaient etre representatifs 
de la diversite genetique des organismes presents initialement dans 
I'echantiilon de sol de depart. II a ete montre en particulier que le 

25 procede d'extraction directe d'acides nucleiques selon ('invention 
permettait I'extraction d'ADN provenant de micro-organismes rares, tels 
certains Streptomyces rares ou des micro-organismes sporules. 

Par " micro-particules " de I'echantiilon de sol aux fins de la 
presente invention, on entend des particules derivees de I'echantiilon 

30 ayant une taille moyenne d'environ 50 urn, c'est a dire comprise en 
moyenne entre 45 et 55 urn/. 

Selon I'invention, les micro-particules sont obtenues a partir 
d'echantillons de sol prealablement seches ou dessiques puis broyes 
jusqu'a I'obtention de micro-particules de taille moyenne comprise entre 
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2pm et 50um, avant remise en suspension dans un milieu tampon 
liquide des micro-particules obtenus. 

Un tel milieu tampon liquide peut consister en un tampon 
d'extraction d'acides nucleiques, en particulier un tampon d'extraction 
5 d'ADN conventionnel bien connu de I'homme du metier. 

Le broyage de I'echantiilon de sol en micro-particules a pour 
double fonction de lyser m6caniquement la majorite des organismes 
presents dans I'echantiilon de sol initial et de rendre accessibles les 
organismes non lyses par ce traitement mecanique a des etapes 

10 facultatives ulterieures de lyse chimique et/ou enzymatique. 

Ainsi, un premier objet de I'invention consiste en un precede de 
preparation d'une collection d'acides nucleiques a partir d'un echantillon 
de sol contenant des organismes, ledit precede comprenant une 
premiere etape (l-(a)) d'obtention de micro-particules par broyage de 

is I'echantiilon de sol prealablement seche ou dessiqu6, puis mise en 
suspension des micro-particules dans un milieu tampon liquide. 

De maniere tout a fait preferee, I'etape de broyage est realisee 
a I'aide d'un dispositif a billes d'agate ou de tungstene ou encore a I'aide 
d'un dispositif a anneaux de tungstene. Ces dispositifs sont preferes car 

20 la durete de materiaux comme I'agate ou le tungstene facilite 
significativement I'obtention des micro-particules de la taille specifiee ci- 
dessus. Pour cette raison, on ne choisira pas preferentiellement, voire 
on evitera, un recours a un dispositif de broyage a billes de verre, qui 
s'est revele beaucoup moins efficace. 

25 Le sechage ou la classification de I'echantiilon de sol peut-etre 

realisee par toute methode connue de I'homme du metier. Par exemple, 
I'echantiilon de sol brut peut etre seche a temperature ambiante pendant 
une duree de 24 a 48 heures. 

Comme indique precedemment, le milieu tampon liquide peut 

30 consister en un milieu d'extraction de I'ADN present dans les micro- 
particules. On utilisera de maniere tout a fait preferee un tampon 
d'extraction designe TENP contenant respectivement 50 mM tris, 20 mM 
EDTA, 100 mM NaCI et 1% (poids/volume) de polyvinylpolypyrrolidone, a 
pH 9,0. 
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Le precede de preparation d'une collection d'acides nucleiques 
a partir d'un echantillon de sol est en outre caracterise en ce que I'etape 
d'obtention de micro-particules par broyage de I'echantillon de sol 
prealablement seche ou dessique est suivie d'une etape l-(b) 
5 d'extraction des acides nucleiques presents dans les micro-particules. 

II est constant que I'extraction des acides nucleiques est 
accompagnee d'une co-extraction de composes et/ou de constituants du 
sol indesirables necessitant la purification ulterieure des acides 
nucleiques extraits, une telle etape de purification ulterieure devant etre 
10 a la fois suffisamment selective pour permettre I'elimination des 
composes et/ou constituants du sol indesirables et d'un rendement 
suffisant pour entramer une perte faible en quantite de I'ADN 
prealablement extrait. 

II a ete montre selon I'invention qu'une etape de purification de 
15 I'ADN extrait des micro-particules de I'echantillon de sol repondant aux 
criteres de selectivity et de rendement definis ci-dessus, comprend un 
traitement de I'ADN extrait par une combinaison de deux etapes 
successives de chromatographie, respectivement une chromatographie 
surtamis moleculaire et une chromatographie d'echange d'anions. 

20 

Selon une autre caracteristique du precede ci-dessus, I'etape I- 
(b) d'extraction des acides nucleiques est suivie d'une etape l-(c) de 
purification des acides nucleiques extraits a I'aide des deux etapes de 
chromatographie suivantes: 

25 

- passage de la solution contenant les acides nucleiques sur un 
tamis moleculaire, puis recuperation des fractions d'elution enrichies en 
acides nucleiques; 

30 - passage des fractions d'elution enrichies en acides nucleiques 

sur un support de chromatographie d'echange d'anions, puis 
recuperation des fractions d'elution contenant les acides nucleiques. 

La nature et I'ordre des etapes de chromatographie ci-dessus 
sont essentiels a une bonne selectivite et un excellent rendement de 
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I'etape de purification de I'ADN prealablement extrait des micro- 
particules de I'echantillon du sol prealablement seche ou dessique. 

De maniere tres avantageuse, le support chromatographique du 
type u tamis moleculaire " de I'etape de purification d'acides nucleiques 
5 ci-dessus consiste en un support chromatographique de type Sephacryl® 
S400 HR ou un support chromatographique de caracteristiques 
equivalentes. 

De maniere tout a fait preferee, le support chromatographique 
d'echange d'anions utilise lors de la seconde etape de purification de 

10 I'ADN extrait est un support de type Elutip® d, ou un support 
chromatographique de caracteristiques equivalentes. 

En combinant les etapes l-(a) d'obtention de micro-particules 
de I'echantillon de sol sec, l-(b) d'extraction des acides nucleiques 
presents dans les micro-particules et l-(c) de purification par les etapes 

15 chromatographiques decrites ci-dessus, il a ete possible selon invention 
d'extraire directement I'ADN du sol sans purification prealable des 
cellules des organismes contenus initialement dans I'echantillon, tout en 
evitant la co-extraction de contaminants du sol, tels que par exemple les 
acides humiques qui est observee avec les precedes de I'etat de la 

20 technique. 

Les contaminants, tels que les acides humiques affectent 
severement les analyses et les utilisations subsequentes des acides 
nucleiques dont la purification est recherchee. 

Selon le precede ci-dessus, il est en outre possible d'acceder 
25 aux acides nucleiques contenus dans les organismes qui n'ont pas ete 
lyses mecaniquement au cours de I'etape l-(a) d'obtention de micro- 
particules de I'echantillon de sol, dans le but d'obtenir une collection 
quasi-exhaustive de la diversite genetique des acides nucleiques 
presents initialement dans I'echantillon de sol. Ainsi, les micro-particules 
30 de I'echantillon de sol peuvent faire I'objet d'etapes ulterieures de 
traitement de lyse chimique, enzymatique ou physique, ou encore d'une 
combinaison de traitements chimiques, enzymatiques ou physiques. 

Selon un premier aspect, le precede de preparation d'une 
collection d'acides nucleiques a partir d'un echantillon de sol selon 
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I'invention, peut etre en outre caracterise en ce que I'etape l-(a) est 
suivie des etapes suivantes: 

• traitement de la suspension de sol dans un milieu tampon 
5 liquide par sonication; 

• extraction et recuperation des acides nucleiques. 

De maniere preferee, on aura recours, pour un traitement par 
10 sonication, a un dispositif de type a micro-pointe en titane, tel que le 
dispositif 600 W Vibracell Ultrasonicator commercialise par la Societe 
Bioblock ou encore un sonicateur de type Cup Horn. 

De maniere tout a fait preferee, I'etape de sonication est 
realisee a une puissance de 15 W pendant une duree de 7 a 10 min et 
15 comprend des cycles successifs de sonication, la sonication proprement 
dite etant realisee pendant 50% de la duree de chaque cycle. 

Selon un second aspect, le precede ci-dessus peut etre en 
outre caracterise en ce que I'etape l-(a) est suivie des etapes suivantes: 

20 • traitement de la suspension de sol dans un milieu tampon 

liquide par sonication; 

• incubation de la suspension a 37°C apres sonication en 
presence de lysozyme et d'achromopeptidase; 

25 

• addition de SDS avant centrifugation et precipitation des 
acides nucleiques; 

• recuperation des acides nucleiques precipites. 

30 

De preference, I'etape d'incubation en presence de lysozyme et 
d'achromopeptidase sera realisee a une concentration finale de 0,3 
mg/ml de chacune des deux enzymes, preferentiellement pendant 30 
minutes a 37°C. 
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De maniere preferee, le SDS sera utilise a une concentration 
finale de 1% et pendant un temps d'incubation de 1 heure a la 
temperature de 60°C avant centrifugation et precipitation. 

Selon un troisieme aspect, le precede de preparation d'une 
5 collection d'acides nucleiques a partir d'un echantillon de sol ci-dessus 
est en outre caracterise en ce que I'etape l-(a) est suivie des etapes 
suivantes: 

- homogeneisation de la suspension de sol avec une etape de 
10 mixage violent (vortex) suivie d'une etape de simple agitation; 

- congelation de la suspension homogene suivie d'une 
decongelation ; 

- traitement par sonication de la suspension apres 
decongelation; 

is - incubation de la suspension a 37°C apres sonication en 

presence de lysozyme et d'achromopeptidase; 

- addition de SDS avant centrifugation et precipitation des 
acides nucleiques; 

- recuperation des acides nucleiques. 

20 

De maniere preferee. les suspensions de micro-particules de 
sol sont passees au vortex puis homogeneisees par une agitation douce 
sur un agitateur a rotation circulaire pendant une duree de deux heures 
avant d'etre congelees a -20°C. 

25 Preferentiellement, les suspensions sont a nouveau agitees 

violemment par vortex pendant 10 minutes, apres decongelation et avant 
I'etape de sonication. 

II va sans dire que les acides nucleiques extraits par les modes 
de realisation du precede d'extraction directe d'acides nucleiques decrit 

30 ci-dessus sont preferentiellement purifies selon I'etape de purification 
constitute d'un premier passage sur tamis moleculaire puis un passage 
subsequent des fractions d'elution obtenues a I'issue de la 
chromatographie sur tamis moleculaire sur un support 
chromatographique d'echange d'anions. 

35 
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2. Extraction indirecte des acides nucleiques 

Selon un second mode de realisation du precede de 
preparation d'une collection d'acides nucleiques a partir d'un echantillon 
5 de I'environnement, selon I'invention, ledit echantillon de I'environnement 
subit un premier traitement de nature a permettre la separation des 
organismes, contenus dans cet echantillon, des autres macro- 
constituants de I'echantillon. 

Ce second mode de realisation du procede de preparation 
10 d'une collection d'acides nucleiques selon I'invention favorise I'obtention 
d'acides nucleiques de grande taille, qui sont pratiquement impossibles a 
obtenir selon le premier mode de realisation du procede selon I'invention 
decrit ci-dessus, I'etape de lyse mecanique operee pour I'obtention des 
micro-particules ayant egalement pour effet de casser physiquement les 
15 acides nucleiques de I'echantillon de sol ou des acides nucleiques 
contenus dans les organismes de I'echantillon de sol. 

L'obtention d'acides nucleiques de grande taille a ete 
recherchee par le demandeur dans le but d'isoler et de caracteriser les 
acides nucleiques comprenant, au moins partiellement, I'ensemble des 
20 sequences codantes appartenant a un meme operon capable de dinger 
la biosynthese d'un compose d'interet industriel. 

De maniere preferee, on obtient, en mettant en oeuvre le 
second mode de realisation du procede de preparation d'une collection 
d'acides nucleiques a partir d'un echantillon de sol selon I'invention , des 
25 acides nucleiques ayant une taille superieure a 100 kb, de preference 
superieure a 200, 250 ou 300 kb, et de maniere tout a fait preferee 
d'acides nucleiques d'une taille superieure a 400, 500 ou encore 600 kb. 

Ce second mode de realisation d'un procede de preparation 
d'une collection d'acides . nucleiques a partir d'un echantillon de 
30 I'environnement selon I'invention est constitue d'une combinaison de 
quatre etapes successives destinees a I'obtention des acides nucleiques 
ayant les caracteristiques decrites ci-dessus. 

Lorsque I'echantillon de I'environnement est un echantillon de 
sol, il a ete montre selon I'invention qu'une premiere etape d'obtention 
35 d'une suspension par dispersion de I'echantillon de sol en milieu liquide 
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favorisait I'accessibilite des organismes contenus dans I'echantillon sans 
provoquerde lyse mecanique significative des cellules. 

La premiere etape d'obtention d'une dispersion de I'echantillon 
5 de sol ci-dessus rend accessibles les organismes de I'echantillon au 
milieu exterieur et permet egalement une dissociation partielle des 
organismes de I'echantillon et des macro-constituants. Elle rend ainsi 
possible une separation ulterieure des organismes contenus initialement 
dans I'echantillon des autres constituants de ce dernier. 
10 Lorsque I'echantillon de I'environnement provient par exemple 

de vegetaux, d'organismes marins ou d'insectes, un traitement prealable 
par broyage est necessaire afin de rendre les organismes de la 
microflora associee accessible aux etapes ulterieures du precede. 

Ainsi, le present precede comprend une etape de separation 
15 des organismes des autres constituants mineraux et/ou organiques 
obtenus precedemment par une centrifugation sur un gradient de 
densite. Les organismes ainsi separes sont ensuite soumis a une etape 
de lyse puis d'extraction des acides nucleiques . 

L'etape de centrifugation sur un gradient de densite a, de 
20 maniere surprenante, permis de separer les cellules d'organismes des 
particules de sol contenues dans la suspension de I'echantillon. On 
aurait en effet pu s'attendre a ce qu'une proportion des cellules soient 
entrainees avec les macro-particules au sein de la phase de gradient. En 
outre, il n'avait jamais ete demontre jusqu'a present qu'une 
25 centrifugation sur gradient de densite d'un echantillon de sol permettait 
de retrouver, a I'interface phase aqueuse/gradient, une population 
d'organismes representative de la diversite des organismes presents 
dans I'echantillon de depart, du fait que ces organismes sont de volume, 
densite et forme extremement variables. On pouvait raisonnablement 
30 supposer qu'ils seraient retrouves indifferemment au sein de la phase 
aqueuse, a I'interface phase aqueuse/gradient de densite et egalement 
au sein du gradient de densite lui-meme. 

Ainsi, I'homme du metier pouvait s'attendre a ce que des 
organismes presentant des densites plus faibles ou plus grandes que la 
35 densite du gradient de densite utilise (densite du gradient de densite 
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comprise entre 1,2 et 1,5 g/ml , preferentiellement 1,3 g/ml) ne pouvait 
etre recuperes, ce qui aurait eu pour effet d'introduire un biais dans la 
representativite des organismes effectivement separes et, par voie de 
consequence, egalement dans la diversite des acides nucleiques 
5 extraits. 

En outre, dans un mode de realisation particulier du precede, 
une etape de germination des spores, en particulier d'actinomycetes, est 
realisee, ce qui a pour effet d'accroTtre de maniere significative la 
quantite d'ADN d'actinomycetes recuperee. 

•o La derniere etape consiste en une etape de purification des 

acides nucleiques ainsi extraits sur un gradient de chlorure de cesium. 

De maniere surprenante, la purification des acides nucleiques 
sur le gradient de chlorure de cesium permet une elimination 
substantielle, voire complete, des substances composant le gradient de 

15 densite. Cette caracteristique est determinants en ce qui concerne 
I'utilisation ulterieure des acides nucleiques purifies car le gradient de 
densite est connu comme un puissant inhibrteur enzymatique, capable le 
cas echeant d'inhiber I'activite catalytique des enzymes utilisees pour 
preparer I'insertion des acides nucleiques extraits dans des vecteurs. 

20 Selon ce second mode de realisation, le precede de 

preparation d'une collection d'acides nucleiques a partir d'un echantillon 
de I'environnement contenant des organismes selon I'invention 
comprend la succession d'etapes suivantes: 

25 (0 obtention d'une suspension par dispersion de I'echantillon de 

I'environnement en milieu liquide puis homogeneisation de la suspension 
obtenue par agitation douce; 

(ii) separation des organismes des autres constituants mineraux 
30 et/ou organiques de la suspension homogene obtenue a I'etape (i) par 

centrifugation sur un gradient de densite; 

(iii) lyse des microorganismes separes a I'etape (ii) et extraction 
des acides nucleiques ; 

35 
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(iv) purification des acides nucleiques sur un gradient de 
chlorure de cesium . 

Preferentiellement, la suspension de I'echantillon de sol est 
5 obtenue par dispersion de cet echantillon par broyage a I'aide d'un 
dispositif de type Waring Blender ou un dispositif de caracteristiques 
equivalentes. De maniere tout a fait preferee, la suspension d'echantillon 
est obtenue apres trois broyages successifs d'une duree d'une minute 
chacun dans un dispositif de type Waring Blender. De preference, 
10 I'echantillon broye sera refroidi dans la glace entre chacun des broyages. 

De maniere preferee, les organismes sont ensuite separes des 
particules du sol par centrifugation sur un coussin de densite du type 
" Nycodenz ", commercialise par la Societe Nycomed Pharma AS. (Oslo 
, Norvege). Les conditions preferees de centrifugation sont de 10.000g 
is pendant 40 minutes a 4°C, avantageusement dans un rotor a godets 
mobiles du type "rotor TST 28.38" commercialise par la Societe 
KONTRON. 

L'anneau d'organismes localise, apres centrifugation, a 
I'interphase de la phase superieure aqueuse et de la phase inferieure de 
20 Nycodenz est alors preleve et lave par centrifugation avant reprise du 
culot cellulaire dans un tampon approprie. 

L'etape (iii) de lyse des organismes separes a I'etape (ii) decrite 
ci-dessus peut etre realisee de toute maniere connue de I'homme du 
metier. 

25 Avantageusement, les cellules sont lysees dans une solution 

Tris 10 mM-EDTA 100mM a pH 8.0 en presence de lysozyme et 
d'achromopeptidase, avantageusement pendant une heure a 37°C. 

L'extraction proprement dite de I'ADN peut etre 
avantageusement realisee par addition d'une solution de lauryl sarcosyl 

30 (1% du poids final de la solution) en presence de proteinase K et 
incubation de la solution finale a 37°C pendant 30 minutes. 

Les acides nucleiques extraits a I'etape (iii) sont ensuite purifies 
sur un gradient de chlorure de cesium. Preferentiellement, I'etape de 
purification des acides nucleiques sur un gradient de chlorure de cesium 
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est realisee par centrifugation a 35.000 tours/minute pendant 36 heures, 
par exemple sur un rotor du type Kontron 65.13. 

Selon un aspect particulier du precede de preparation d'une 
collection d'acides nucleiques a partir d'un echantillon de sol contenant 
5 des organismes selon I'invention, lesdits acides nucleiques sont 
constitues majoritairement, sinon exclusivement, de molecules d'ADN. 

Selon un autre aspect, les acides nucleiques peuvent Stre 
recuperes apres inclusion des organismes, separes sur un gradient de 
densite, dans un bloc d'agarose et lyse, par exemple chimique et/ou 
10 enzymatique, des organismes inclus dans le bloc d'agarose. 

Un autre objet de I'invention consiste en une collection d'acides 
nucleiques constitues des acides nucleiques obtenus a I'etape ll-(iv) du 
precede de preparation d'une collection d'acides nucleiques selon 
15 I'invention ou encore obtenue a I'etape (c) ou une etape ulterieure du 
precede de preparation d'une collection d'acides nucleiques selon 
I'invention. 

L'invention est encore relative a un acide nucleique caracterise 
en ce qu'il est contenu dans une collection d'acides nucleiques telle que 

20 definie ci-dessus. 

Selon un premier aspect, un tel acide nucleique constitutif d'une 
collection d'acides nucleiques selon I'invention est caracterise en ce qu'il 
comprend une sequence nucleotidique codant au moins un operon, ou 
une partie d'un operon. 

25 De maniere tout a fait preferee, un tel operon code pour la 

totalite ou une partie d'une voie metabolique. 

L'exemple 9 decrit la construction d'une banque d'ADN 
genomique a partir d'une souche de Streptomyces alboniger et son 
clonage respectivement dans les cosmides navettes pOS700l et 

30 pOS700R. II a ete montre selon I'invention que dans la banque d'ADN 
realisee dans le vecteur integratif pOS700l neuf clones contiennent des 
sequences nucleotidiques appartenant a I'operon responsable de la voie 
de biosynthese de la puromycine. De meme, il a pu fitre identifie au sein 
de la banque d'ADN realisee dans le vecteur replicatif pOS 700R douze 
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clones contenant des sequences nucleotidiques de I'operon responsable 
de la voie de biosynthese de la puromycine. 

En particulier, certains cosmides integratifs et replicatifs des 
banques realisees presentent, apres digestion par les endonucleases de 
5 restriction Clal et EcoRV, un fragment d'une taille de 12 kb susceptible 
de contenir la totalite des sequences de I'operon responsable de la voie 
de biosynthese de la puromycine. 

Ainsi, selon un autre aspect, un acide nucleique selon 
I'invention contient, au moins en partie, des sequences nucleotidiques de 
10 I'operon responsable de la voie de biosynthese de la puromicyne. 

L'exemple 2 ci-apres decrit la construction d'une banque d'ADN 
selon un precede conforme a la presente invention dans un vecteur 
pBluescript SK" a partir d'un sol contamine par du lindane. 

Les vecteurs recombinants ont ete transfectes dans des 
15 cellules (^'Escherichia coli DH10B puis les cellules transformees ont ete 
cultivees dans un milieu de culture approprie en presence de lindane. Un 
criblage des clones de cellules transformees de la banque a permis de 
montrer que, sur 10.000 clones cribles, 35 d'entre eux presentaient un 
phenotype de degradation du lindane : La presence du gene linA chez 
20 ces clones a pu etre confirmee par amplification PCR grace a des 
amorces specifiques de ce gene. 

Ainsi, selon un autre aspect, I'invention conceme egalement un 
acide nucleique contenant une sequence nucleotidique de la voie 
metabolique provoquant la biodegradation du lindane. 
25 II est done clairement demontre, comme decrit plus haut, qu'un 

precede de preparation d'une collection d'acides nucleiques a partir d'un 
echantillon de sol contenant des organismes selon I'invention ainsi qu'un 
procede de preparation d'une collection de vecteurs recombinants 
contenant les acides nucleiques constitutifs de la collection d'acides 
30 nucleiques precites etait tout a fait apte a I'isolement et a la 
caracterisation de sequences nucleotidiques incluses dans un operon. 

Une demonstration supplemental de I'aptitude d'un procede 
selon I'invention a ('identification de sequences nucleotidiques codantes 
impliquees dans une voie de biosynthese regulee sous la forme d'un 
35 operon est en outre decrite plus loin: il s'agit du clonage et de la 
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caracterisation de sequences codant pour des polyketides synthases 
impliquees dans la voie de biosynthese des polyketides, qui 
appartiennent a une famille de molecules dont certains representants 
sont d'un interet therapeutique majeur, en particulier antibiotique. 

5 La presente invention a done en outre pour objet un acide 

nucleique constitutif d'une collection d'acides nucleiques selon 
I'invention, caracterise en ce qu'il comprend la totalite d'une sequence 
nucleotidique codant pour un polypeptide. 

Selon un premier aspect, un acide nucleique constitutif d'une 

10 collection d'acides nucleiques selon I'invention est d'origine procaryote. 

Selon un second aspect, un acide nucleique constitutif d'une 
collection d'acides nucleiques selon I'invention provient d'une bacterie ou 
d'un virus. 

Selon un troisieme aspect, un acide nucleique constitutif d'une 
15 collection d'acides nucleiques selon I'invention est d'origine eucaryote. 

En particulier, un tel acide nucleique est caracterise en ce qu'il 
provient d'un champignon, d'une levure, d'une plante ou d'un animal. 

CARACTERISATION MOLECULAIRE DE LA COLLECTION D'ACIDES 
20 NUCLEIQUES EXTRAITS DU SOL. 

Afin de surmonter les nombreux inconvenients techniques des 
methodes de caracterisation des banques d'ADN extraits et purifies a 
partir d'un echantillon de I'environnement qui ont ete decrits dans la 

25 partie de la description relative a I'etat de la technique, le demandeur a 
mis au point un precede simple et fiable permettant de caracteriser 
qualitativement et semi-quantitativement les acides nucleiques obtenus a 
Tissue du procede decrit ci-dessus. 

Le procede selon I'invention consiste ainsi a amplifier 

30 universellement un fragment de 700 pb localise a I'interieur d'une 
sequence d'ADN ribosomal de type 16 S, puis d'hybrider I'ADN amplifie 
avec une sonde oligonucleotidique de specificite variable et enfin de 
comparer I'intensite d'hybridation de I'echantillon par rapport a une 
gamme etalon externe d'ADN de sequence ou d'origine connue. 
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L'amplification prealable a I'hybridation avec la sonde 
oligonucleotidique permet de quantifier des genres ou des especes de 
micro-organismes peu abondants. De plus, 1'amplification par des 
amorces universelles permet, lors de I'hybridation, d'utiliser une large 
5 serie de sondes oligonucleotidiques. 

Ainsi, I'invention a en outre pour objet un precede de 
determination de la diversite des acides nucleiques contenus dans une 
collection d'acides nucleiques, et tout particulierement d'une collection 
d'acides nucleiques provenant d'un echantillon de I'environnement, 
10 preferentiellement d'un echantillon du sol, ledit precede comprenant les 
etapes suivantes: 

- mise en contact des acides nucleiques de la collection 
d'acides nucleiques a tester avec un couple d'amorces 

15 oligonucleotidiques hybridant a toute sequence d'ADN ribosomal 16 S 
bacterien; 

- realisation d'au moins trois cycles d'amplification ; 

- detection des acides nucleiques amplifies a I'aide d'une sonde 
oligonucleotidique ou d'une pluralite de sondes oligonucleotidiques, 

20 chaque sonde hybridant specifiquement avec une sequence d'ADN 
ribosomal 16 S commune a un regne, un ordre, une sous-classe ou un 
genre bacterien; 

- le cas echeant, comparaison des resultats de I'etape de 
detection precedente avec les resultats de detection, a I'aide de la sonde 

25 ou de la pluralite de sondes d'acides nucleiques de sequence connue 
constituant une gamme etalon. 

De maniere preferee, un premier couple d'amorces hybridant 
avec des regions universellement conservees du gene de I'ARN 
ribosomal 16 S est constitue respectivement des amorces FGPS 612 
30 (SEQ ID N°12) et FGPS 669 (SEQ ID N°13). 

Un second mode de realisation d'un couple d'amorces prefere 
selon I'invention est constitue du couple d'amorces universelles 63 f 
(SEQ ID N°22) et 1387r (SEQ ID N°23). 

Selon un mode particulier de realisation d'un precede de 
35 determination de la diversite des acides nucleiques d'une collection 
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d'acides nucleiques, I'etape d'amplification a I'aide d'un couple 
d'amorces universelles peut etre realisee sur une collection de vecteurs 
recombinants dans chacun desquels a ete insere un acide nucleique de 
la collection d'acides nucleiques consideree, prealablement a I'etape 
s d'hybridation avec les sondes oligonucleotidiques specifiques d'un 
regne, d'un ordre, d'une sous-classe ou d'un genre bacterien particulier. 

Un tel procede de determination de la diversite des acides 
nucleiques contenus dans une collection est tout particulierement 
applicable aux collections d'acides nucleiques obtenus conformement a 

10 I'enseignement de la presente description. 

Ainsi, I'exemple 3 detaille un procede de preparation d'une 
collection d'acides nucleiques a partir d'un echantillon de sol contenant 
des organismes comprenant une etape d'extraction indirecte d'ADN par 
dispersion d'un echantillon du sol prealablement a la separation des 

15 cellules sur gradient de Nycodenz, lyse des cellules puis purification de 
I'ADN sur gradient de chlorure de cesium. 

La collection d'acides nucleiques ainsi obtenue a ete utilisee 
telle quelle ou sous la forme d'inserts dans des vecteurs de type 
cosmide dans un procede d'amplification a I'aide des amorces 

20 universelles de I'ADNr 16 S precitees, puis les ADN amplifies ont ete 
soumis a une etape de detection a I'aide de sondes oligonucleotidiques 
de sequences SEQ ID N°14 a SEQ ID N°21 qui sont presentees dans le 
tableau 4. 

Les resultats montrent qu'un procede de preparation d'une 
25 collection d'acides nucleiques a partir d'un echantillon de sol contenant 
des organismes selon invention permet d'acceder a I'ADN de plus de 
14% de la microflora tellurique totale, soit 2 x 10 8 cellules par gramme de 
sol, alors que la microflora totale cultivable ne represents qu'a peine 2% 
de la population microbienne totale. 
30 Afin de determiner la diversite phylogenetique d'une collection 

d'acides nucleiques prepares conformement a I'invention, 47 sequences 
du gene ARNr 16S ont ete isolees et sequencees. Ces sequences 
correspondent respectivement aux sequences nucleotidiques SEQ ID 
N°60aSEQIDN°106. 
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Les acides nucleiques comprenant les sequences SEQ ID N° 
60 a SEQ ID N° 106 font egalement partie de I'invention, ainsi que les 
acides nucleiques possedant au moins 99 %, preferentiellement 99,5% 
ou 99,8% d'identite en acides nucleiques avec les acides nucleiques 
5 comprenant les sequences SEQ ID N° 60 a SEQ ID N° 106. De telles 
sequences peuvent etre utilisees notamment en tant que sondes pour 
cribler des clones d'une banque d'ADN et identifier ainsi ceux , parmi les 
clones de la banque, qui contiennent de telles sequences, ces 
sequences etant suceptibles d'etre a proximite de sequences codantes 
10 d'intdret, telles que des sequences codant pour des enzymes impliquees 
dans la voie de biosynthese de metabolites antibiotiques, par exemple 
des polyketides. 

La comparaison des sequences d'ARNr 16S a partir d'une 
banque d'ADN realisee conformement a I'invention avec les sequences 

15 repertoriees dans la base donnees RDP (Maidak B.L., Cole J.R., Parker 
C.T., Garrity G.M., Larsen N., Li B., Lilburn T.G., McCaughey, M.J., 
Olsen G.J., Overbeek R., Pramanik S., Schmidt T.M., Tiedje J.M., 
Woese C.R. (1999) "A new projet of the RDP (Ribosomal Database 
Project)" Nucleic Acids Research Vol. 27: 171-173) ont permis de 

20 determiner que les acides nucleiques contenus dans une collection 
d'acides nucleiques selon I'invention proviennent d'a-proteobacteries, de 
B-proteobacteries, de 8-proteobacteries, de y-proteobacteries, 
d'actinomycetes ainsi que d'un genre apparente a acidobacterium. Ces 
resultats, presentes dans le tableau 7 ainsi que par I'arbre 

25 phylogenetique de la figure 7 rendent compte de la grande diversite 
phylogenetique des acides nucleiques contenus dans une banque 
d'ADN preparee conformement au precede selon I'invention. 

VECTEURS DE CLONAGE ET/OU ^EXPRESSION 

30 

Chacun des acides nucleiques contenus dans une collection 
d'acides nucleiques prepares conformement a I'invention peut 6tre 
insere dans un vecteur de clonage et/ou d'expression. 

A cette fin, tous types de vecteurs connus de I'etat de la 
35 technique peuvent etre utilises, tels que des vecteurs viraux , des 
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phages, des plasmides, des phagemides, des cosmides, des 
phosmides, des vecteurs de type BAC, des bacteriophages P1 , des 
vecteurs de type BAC, des vecteurs de type YAC, des plasmides de 
levure ou encore tout autre vecteur connu de I'etat de la technique par 
5 I'homme du metier. 

On aura avantageusement recours selon I'invention a des 
vecteurs permettant une expression stable des acides nucleiques d'une 
banque d'ADN. A cette fin, de tels vecteurs incluent preferentiellement 
des sequences de regulation de la transcription qui sont localisees en 

10 phase (" operably linked ") avec I'insert genomique de maniere a 
permettre I'initiation et/ou la regulation de I'expression d'au moins une 
partie dudit insert d'ADN. 

II resulte de ce qui precede, que I'invention concerne encore un 
precede de preparation d'une collection de vecteurs recombinants 

is caracterise en ce que les acides nucleiques obtenus a I'etape ll-(iv) ou a 
I'etape l-(c) ou toute autre etape ulterieure d'un procede de preparation 
d'une collection d'acides nucleiques a partir d'un echantillon de sol 
contenant des organismes selon I'invention sont inseres dans un vecteur 
de clonage et/ou d'expression. 

20 Prealablement a leur insertion dans un vecteur de clonage 

et/ou d'expression, les acides nucleiques constitutifs d'une collection 
d'acides nucleiques selon I'invention peuvent etre separes en fonction de 
leur taille, par exemple par electrophorese sur un gel d'agarose, le cas 
echeant apres digestion a I'aide d'une endonuclease de restriction. 

25 Selon un autre aspect, fa taille moyenne des acides nucleiques 

constitutifs d'une collection d'acides nucleiques selon I'invention peut 
etre rendue d'une taille sensiblement uniforme par la mise en oeuvre 
d'une etape de rupture physique prealablement a leur insertion dans le 
vecteur de clonage et/ou d'expression. 

30 Une telle etape de rupture physique ou mecanique des acides 

nucleiques peut consister en des passages successifs de ces derniers, 
en solution, dans un canal metallique d'environ 0,4 mm de diametre, par 
exemple le canal d'une aiguille de seringue ayant un tel diametre. 

La taille moyenne des acides nucleiques peut dans ce cas etre 

35 comprise entre 30 et 40 kb de longueur. 
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La construction des vecteurs preferes selon I'invention est 
shematisee dans les figures 25 (cosmide integrarif conjugatif) et 26 (BAC 
integratif ). 

Des vecteurs de clonage et/ou d'expression pouvant §tre 
5 avantageusement utilises aux fins d'insertion des acides nucleiques 
contenus dans une collection ou banque d'ADN selon I'invention sont 
notamment les vecteurs decrits dans le brevet europeen N°EP-0 350 
341 et dans le brevet US N°5 688 689, de tels vecteurs etant 
specialement adaptes a la transformation de souches d'actinomycetes. 
10 De tels vecteurs contiennent, outre une sequence d'ADN de Tinsert, une 
sequence d'attachement art ainsi qu'une sequence d'ADN codant pour 
une integrase (sequence |nt) fonctionnelle dans les souches 
d'actinomycetes. 

Toutefois, il a ete observe selon I'invention que certains 
15 vecteurs de clonage et/ou d'expression presentment des inconvenients 
et que leur capacite fonctionnelle theorique n'etait pas atteinte dans la 
pratique. 

Ainsi, il est apparu que le systeme d'integration contenu dans 
des vecteurs de I'etat de la technique, et notamment dans les vecteurs 
20 decrits dans le brevet europeen n°EP 0 350 41 ne permettait pas en 
realite une bonne integration de I'insert d'ADN de la banque au sein du 
chromosome bacterien. 

Partant de I'hypothese que les deficits fonctionnels d'integration 
25 de tels vecteurs au sein du chromosome bacterien etaient dus a un 
defaut dans ('expression du gene de I'integrase present dans ces 
vecteurs, le demandeur a tout d'abord cherche a augmenter I'expression 
du gene de I'integrase en substituant au promoteur de la transcription 
initial un promoteur de la transcription susceptible d'augmenter 
30 significativement le nombre de transcrits de I'integrase. 

Les resultats ont ete decevants et la fonction d'integration au 
chromosome de ces vecteurs n'a pas ete amelioree. 

De maniere surprenante, il a ete montre selon I'invention que 
les difficultes d'expression de I'integrase contenues dans cette famille de 
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vecteurs integratifs ne se situait pas au niveau de la quantite 
d'expression des transcrits, mais au niveau de leur stabilite. 

Selon une seconde hypothese, le demandeur a pu montrer que 
le defaut de stabilite des transcrits de I'integrase etait cause par des 
5 deficits dans la terminaison de la transcription de I'ARN messager 
correspondant. 

Le demandeur a alors insere un site terminateur place en aval 
de la sequence codant pour I'integrase du vecteur de maniere a obtenir 
un ARN messager de taille determinee. L'insertion d'un signal de 
10 terminaison additionnel en aval de la sequence nucleotidique codant 
pour I'integrase du vecteur a permis I'obtention d'une famille de vecteurs 
integratifs de type cosmide et de type BAC . 

Preferentiellement, le site terminateur est place en aval du site 
d'attachement att. 

15 

En outre, le demandeur a mis au point de nouveaux vecteurs 
conjugatifs et de nouveaux vecteurs replicatifs du type cosmide et de 
nouveaux vecteurs conjugatifs de type BAC qui peuvent 
avantageusement etre utilises pour l'insertion des acides nucleiques 

20 constitutifs d'une collection d'acides nucleiques prepares selon le 
precede de I'invention. 

Lorsque l'insertion de fragments d'ADN de taille moyenne est 
recherchee, on utilise preferentiellement des vecteurs du type cosmide, 
capables de recevoir des inserts ayant une taille maximale d'environ 50 

25 kb. 

De tels vecteurs cosmidiques sont tout particulierement adaptes 
pour l'insertion d'acides nucleiques constitutifs d'une collection d'acides 
nucleiques obtenus selon le precede de I'invention comprenant une 
premiere etape d'extraction directe d'ADN par lyse mecanique des 

30 organismes contenus dans I'echantillon de sol initial. 

Lorsque l'insertion d'acides nucleiques de grande taille, en 
particulier d'acides nucleiques d'une taille superieure a 100 kb, voire 
superieure a 200, 300, 400, 500 ou 600 kb est recherchee, on aura alors 
recours preferentiellement a des vecteurs du type BAC capables de 

35 recevoir des inserts d'ADN d'une telle taille. 



WO 01/40497 



37 



PCT/FROO/03311 



De tels vecteurs de type BAC sont tout particulierement 
adaptes pour I'insertion des acides nucleiques constitutifs d'une 
collection d'acides nucleiques obtenus conformement au procede selon 
I'invention dans lequel la premiere etape est constitute d'une extraction 

5 indirecte de I'ADN par separation prealable des organismes contenus 
dans l'6chantillon de sol initial et elimination des macro-constituants 
dudit echantillon de sol. 

En particulier, des vecteurs du type BAC sont avantageusement 
mis en oeuvre pour I'insertion d'acides nucleiques de grande taille 

10 contenant, au moins partiellement, la sequence nucleotidique d'un 
operon. 

Ainsi, le procede de preparation d'une collection de vecteurs 
recombinants de clonage et/ou d'expression selon I'invention est en 
outre caracterise en ce que le vecteur de clonage et/ou d'expression est 
15 du type plasmide. 

Selon un autre aspect, un tel procede est caracterise en ce que 
le vecteur de clonage et/ou d'expression est du type cosmide. 

Selon un premier aspect, il peut s'agir d'un cosmide replicatif 
chez E.coli et integratif chez Streptomyces. Un vecteur cosmidique tout a 
20 fait prefere repondant a une telle definition est le cosmide pOS700l 
decrit a I'exemple 3. 

Selon encore un autre aspect, le vecteur cosmidique est 
conjugatif et integratif chez Streptomyces. 

De maniere generate, des vecteurs conjugatifs de type cosmide 
25 ou de type BAC, qui comprennent dans leurs sequences nucleotidiques 
un motif reconnu par la machinerie enzymatique cellulaire appele 
" origine de conjugaison " sont utilises chaque fois que Ton veut eviter un 
recours a des techniques de transformation lourdes et peu 
automatisables. 

30 Par exemple, la transfection de vecteurs initialement heberges 

par des cellules de E.coli dans des cellules de Streptomyces necessite 
classiquement une etape de recuperation du vecteur recombinant 
contenu dans les cellules de Escherichia coli, et sa purification prealable 
a I'etape de transformation de protoplastes de Streptomyces. II est 

35 communement admis qu'une transfection d'un ensemble de 1000 clones 
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de Escherichia coli dans Streptomyces requiert I'obtention d'environ 
8000 clones pour que chaque clone de E. coli ait une chance d'etre 
represents. 

A I'inverse, une etape de transfection par conjugaison d'un 
5 vecteur heberge par E.coli vers des cellules de Streptomyces necessite 
le meme nombre de clones de chacun des micro-organismes, I'etape de 
conjugaison ayant lieu " clone a clone " et ne comprenant en outre pas 
les difficultes techniques liees a I'etape de transfert de materiel 
genetique par transformation de protoplastes, par exemple en presence 
10 de polyethylene glycol. 

Afin d'optimiser la construction de banque d'ADN chez 
Streptomyces, il a ete mis au point selon I'invention, de nouveaux 
vecteurs conjugatifs de type cosmide et de type BAC de nature a 
permettre une efficacite maximale de I'etape de conjugaison. 
15 Notamment, les nouveaux vecteurs conjugatifs selon I'invention 

ont ete constants en placant un gene marqueur de selection a I'extremite 
de I'ADN du vecteur qui est transfere a la bacterie receptrice en dernier 
lieu.Ce perfectionnement aux vecteurs conjugatifs de I'etat de la 
technique permet de ne selectionner positivement que les bacteries 
20 receptrices ayant re9u la totalite de I'ADN du vecteur et, en 
consequence, la totalite de I'ADN de I'insert d'interet. 

Des cosmides conjugatifs et integrals chez Streptomyces 
preferes selon I'invention sont les cosmides pOSV303, pOSV306 et 
pOSV307 decrits a I'exemple 5. 
25 Selon un autre aspect, un precede de preparation d'une 

collection de vecteurs recombinants selon I'invention est mis en oeuvre a 
I'aide d'un cosmide replicatif a la fois chez E.coli et chez Streptomyces. 
Un tel cosmide est avantageusement le cosmide pOS 700R decrit a 
I'exemple 6. 

30 Selon encore un autre aspect, le precede ci-dessus peut etre 

mis en oeuvre avec un cosmide replicatif chez E. coli et Streptomyces et 
conjugatif chez Streptomyces. 

Un tel cosmide replicatif et conjugatif peut etre obtenu a partir 
d'un cosmide replicatif cpnforme a I'invention, par I'insertion d'une 
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origine de transfert appropriee, telle que RK2, comme decrit a I'exemple 
5 pour la construction du vecteur pOSV303. 

Selon un autre mode de realisation avantageux du precede de 
preparation d'une collection de vecteurs recombinants selon I'invention, 
5 on a recours a un vecteur de clonage et/ou d'expression de type BAC. 

Selon un premier aspect, le vecteur du type BAC est integratif 
et conjugatif chez Streptomyces. 

De maniere tout a fait preferee, un tel vecteur BAC integratif et 
conjugatif chez Streptomyces est le vecteur BAC pOSV 403 decrit a 
10 I'exemple 8, ou encore les vecteurs BAC pMBD-1, pMBD-2, pMBD-3, 
pMBD-4, pMBD-5 et pMBD-6 decrits a I'exemple 15. 

L'invention a en outre pour objet un vecteur recombinant 
caracterise en ce qu'il est choisi parmi les vecteurs recombinants 
suivants: 

15 a) un vecteur comprenant un acide nucleique constitutif d'une 

collection d'acides nucleiques selon invention; 

b) un vecteur tel qu'obtenu selon un procede eliminant tout 

recours a Taction d'une endonuclease de restriction sur le fragment 

d'ADN a inserer, tel que decrit precedemment. 
20 De maniere tout a fait preferee, I'invention est egalement 

relative a un vecteur choisi parmi les vecteurs suivants: 

- le cosmide pOS700l; 

- le cosmide pOSV303; 
25 - le cosmide pOSV306; 

- le cosmide pOSV307; 

- le cosmide pOS700R; 

- le vecteur BAC pOSV403; 

- le vecteur BAC pMBD-1; 
30 - le vecteur BAC pMBD-2; 

- le vecteur BAC pMBD-3; 

- le vecteur BAC pMBD-4; 

- le vecteur BAC pMBD-5; 

- le vecteur BAC pMBD-6. 
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L'invention est en outre relative a une collection de vecteurs 
recombinants tels qu'obtenus selon I'un quelconque des precedes selon 
l'invention. 

5 Procede de preparation d'un vecteur recombinant de clonaqe et/ou 
d'expression selon l'invention. 

Les techniques conventionnelles d'insertion d'ADN au sein d'un 
vecteur afin de preparer un vecteur de clonage et/ou d'expression 

10 recombinant font classiquement appel a une premiere etape au cours de 
laquelle une endonuclease de restriction est incubee a la fois avec I'ADN 
a inserer et avec le vecteur recepteur creant ainsi des extremites 
compatibles entre I'ADN a inserer et I'ADN du vecteur permettant 
I'assemblage des deux ADN avant une etape de ligation finale 

1 5 permettant I'obtention du vecteur recombinant. 

Toutefois, une telle technique conventionnelle presente des 
inconvenients notables, tout particulierement lorsque est recherchee 
I'insertion d'acides nucleiques de grande taille dans un vecteur de 
clonage et/ou d'expression. 

20 En effet, Taction prealable d'une enzyme de restriction sur les 

fragments d'ADN destines a etre inseres dans un vecteur est susceptible 
de reduire notablement la taille de cet ADN prealablement a son 
insertion dans le vecteur. II va sans dire qu'une reduction significative de 
la taille de I'ADN prealablement a son insertion sur un vecteur est une 

25 situation particulierement defavorable lorsqu'est recherche le clonage de 
fragments d'ADN de grande taille susceptible de contenir I'ensemble des 
sequences codantes et, le cas echeant, egalement des sequences 
regulatrices, d'un operon dont 1'expression constitue une voie de 
biosynthese complete d'un metabolite d'interet industriel, et tout 

30 particulierement d'un compose d'interet therapeutique. 

Pour remedier aux inconvenients des techniques de I'art 
anterieur, il a ete mis au point selon l'invention deux precedes de 
preparation d'un vecteur recombinant de clonage et/ou d'expression qui 
ne necessitent pas le recours a une endonuclease de restriction sur 

35 I'ADN a inserer prealablement a son introduction au sein du vecteur. De 
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tels precedes sont en consequence tout a fait adaptes au clonage de 
longs fragments d'ADN susceptibles de contenir, au moins partiellement, 
I'ensemble des sequences codantes et, le cas echeant, egalement des 
sequences regulatrices, d'un operon complet responsable d'une voie de 
5 biosynthese. 

Selon un premier aspect, un proc6de de preparation d'un 
vecteur recombinant de clonage et/ou d'expression selon I'invention est 
caracterise en ce que I'insertion d'un acide nucleique dans le vecteur de 
clonage et/ou d'expression, comprend les etapes suivantes: 

10 

- ouvrir le vecteur de clonage et/ou d'expression a un site de 
clonage choisi, a I'aide d'une endonuclease de restriction appropriee; 

- ajouter un premier acide nucleique homopolymerique a 
15 I'extremite 3' libre du vecteur ouvert; 

- ajouter un second acide nucleique homopolymerique, de 
sequence complementaire au premier acide nucleique 
homopolymerique, a I'extremite 3" libre de I'acide nucleique a inserer 

20 dans le vecteur; 

- assembler I'acide nucleique du vecteur et I'acide nucleique par 
hybridation du premier et du second acide nucleique homopolymerique 
de sequences complementaires I'une de I'autre; 

25 

- refermer le vecteur par ligation. 

Un tel procede est decrit aux exemples 10 et 13 ci-apres. 
De maniere avantageuse, le procede ci-dessus peut comporter 
30 les caracteristiques suivantes, isolement ou en combinaison: 



- le premier acide nucleique homopolymerique est de sequence 
poly(A) ou poly(T); 
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- le second acide nucleique homopolymerique est de sequence 
poly(T) ou poly(A). 

De maniere tout a fait preferee, les acides nucleiques 
5 homopolymeriques ont une longueur comprise entre 25 et 100 bases 
nucleotidiques, preferentiellement entre 25 et 70 bases nucleotidiques. 

Le procede de preparation d'un vecteur recombinant de 
clonage et/ou d'expression decrit ci-dessus est particulierement adapte a 
la construction de banques d'ADN dans des vecteurs de type BAC. 
10 Ainsi, selon un mode de realisation avantageux du procede de 
preparation d'un vecteur recombinant decrit ci-dessus, ledit procede est 
en outre caracterise en ce que la taille de I'acide nucleique a inserer est 
d'au moins 1 00 kb, et preferentiellement d'au moins 200, 300, 400, 500 
ou 600 kb. 

15 Un tel procede de preparation est done particulierement adapte 

a I'insertion des acides nucleiques contenus dans une collection d'acides 

nucleiques obtenus selon le procede de I'invention. 

Afin de permettre I'insertion de fragments d'ADN de grande 

taille dans des vecteurs de clonage et/ou d'expression, il a ete mis au 
20 point selon I'invention, un second procede ayant permis d'eliminer tout 

recours a Taction d'une endonuclease de restriction sur I'ADN destine a 

etre insere au sein du vecteur. 

Un tel procede de preparation d'un vecteur recombinant de 

clonage et/ou d'expression selon I'invention est caracterise en ce que 
25 I'etape d'insertion d'un acide nucleique dans ledit vecteur de clonage 

et/ou d'expression comprend les etapes suivantes: 

- creation de bouts francs sur les extremites de I'acide 
nucleique de la collection par elimination des sequences 3' sortantes et 

30 remplissage des sequences 5' sortantes; 

- ouverture du vecteur de clonage et/ou d'expression a un site 
de clonage choisi a I'aide d'une endonuclease de restriction appropriee; 



35 



adition d'adaptateurs oligonucleotidiques complementaires ; 
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- creation de bouts francs aux extremites de I'acide nucleique 
du vecteur par elimination des sequences 3' sortantes et remplissage 
des sequences 5' sortantes, puis dephosphorylation des extremites 5' 

5 afin de prevenir une recircularisation du vecteur; 

- insertion de I'acide nucleique de la collection dans le vecteur 
par ligation. 

10 De maniere preferee, I'elimination des sequences 3' sortantes 

est realisee a I'aide d'une exonuclease, telle que I'enzyme de Klenow. 

De maniere preferee, le remplissage des sequences 5' 
sortantes est realise a I'aide d'une polymerase, et de maniere tout a fait 
preferee de la T4 polymerase, en presence des quatre nucleotides 
15 triphosphates. 

Un procede de preparation d'un vecteur recombinant de 
clonage et/ou d'expression par elimination des sequences 3' sortantes et 
remplissage des sequences 5' sortantes tel que decrit ci-dessus est 
particulierement adapte a la construction de banques d'ADN a partir de 
20 vecteurs de type cosmide. 

Un tel procede d'obtention de vecteurs recombinants est decrit 
a I'exemple 12. 

Dans un mode particulier de preparation d'un vecteur 
recombinant selon invention, des oligonucleotides comprenant un ou 
25 plusieurs sites de restriction rares sont ajoutes sur le vecteur au niveau 
du site de clonage de I'ADN a inserer, conformement a I'enseignement 
de I'exemple 10. Cet ajout d'oligonucleotides facilite la recuperation 
ulterieure des inserts sans clivage de ces derniers. 

30 CELLULES HOTES 

Bien que tout type de cellules hotes puisse etre utilise pour la 
transfection ou la transformation avec un acide nucleique ou un vecteur 
recombinant selon I'invention, notamment une cellule hote procaryote ou 
35 eucaryote, on utilisera de preference des cellules h6tes dont les 
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caracteres physiologiques, biochimiques et genetiques sont bien 
caracterises, facilement cultivates a grande echelle et dont les 
conditions de culture pour la production de metabolites soient bien 
connues. 

5 De maniere preferentielle, la cellule hote receptrice d'un acide 

nucleique ou d'un vecteur recombinant selon I'invention est 
phylogenetiquement proche des organismes donneurs contenus 
initialement dans I'echantillon de I'environnement desquels les acides 
nucleiques sont originaires. 
io De maniere tout a fait preferee, une cellule hote selon 

I'invention doit posseder un usage des codons similaire, ou du moins 
proche, des organismes donneurs presents initialement dans 
I'echantillon de I'environnement, tout particulierement de I'echantillon de 
sol. 

15 La taille des fragments d'ADN susceptible de porter les 

sequences nucleotidiques d'interet recherchees peut etre variable. Ainsi, 
des enzymes codees par des genes de taille moyenne de 1 kb pourront 
etre exprimees a partir d'inserts de petite taille alors que I'expression de 
metabolites secondaires necessiteront le maintien dans I'organisme h6te 

20 de fragments de taille bien superieure, par exemple de 40 kb a plus de 
100 kb, 200 kb, 300 kb, 400 kb ou 600 kb. 

Ainsi, les cellules notes de Escherichia coli constituent un choix 
privilegie pour le clonage de grands fragments d'ADN. 

De maniere tout a fait preferee, on aura recours a ('utilisation de 

25 la souche de Escherichia coli designee DH10B et decrite par Shizuya et 
al; (1992) pour laquelle des protocoles de clonage dans des vecteurs 
BAC ont ete optimises. 

Toutefois, d'autres souches de Escherichia coli peuvent etre 
avantageusement utilisees pour la construction d'une banque d'ADN 

30 selon I'invention, telles que les souches E.coli Sure, E.coli DH5 a, ou 
encore E.coli 294 (ATCC N°31446). 

En outre, la construction d'une banque d'ADN par transfection 
de cellules de E.coli avec des vecteurs recombinants selon I'invention 
est egalement possible, I'expression de genes de divers procaryotes tels 
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que Bacillus, Thermotoga, Corynebacterium, Lactobacillus ou 
Clostridium ayant ete decrite dans la demande PCT N°WO 99/20799. 

De maniere generate, des cellules hotes de E.coli peuvent dans 
5 tous les cas constituer des hdtes transitoires dans lesquels des vecteurs 
recombinants selon I'invention pourront etre maintenus avec une grande 
efficacite, le materiel genetique pouvant etre facilement manipule et 
archive et facon stable. 

Dans le but d'exprimer la plus grande diversite moleculaire 
10 possible, d'autres hotes cellulaires pourront etre egalement 
avantageusement mis en oeuvre tels que des cellules de Bacillus, 
Pseudomonas, Streptomyces, Myxococcus, Aspergillus nidulans ou 
encore Neurospora crassa. 

II a en outre ete montre selon la presente invention, que des 
is cellules de Streptomyces lividans peuvent §tre utilisees avec succes et 
constituent des systemes d'expression complementaires a Escherichia 
coli. 

Streptomyces lividans constitue un modele pour I'etude de la genetique 
des Streptomyces et a egalement ete utilise comme hote d'expression 

20 heterologue de nombreux metabolites secondaires. Streptomyces 
lividans, possede en commun avec d'autres actinomycetes tels que 
Streptomyces coelicolor, Streptomyces griseus, Streptomyces fradiae, 
ainsi que Streptomyces griseochromogenes, les molecules precurseurs 
et les systemes de regulation necessaires a I'expression de tout ou 

25 partie des voies de biosyntheses complexes, telles que par exemple la 
voie de biosynthese des polyketides ou encore la voie de biosynthese 
des polypeptides non ribosomiques representant des classes de 
molecules de structures tres diverses. 

Streptomyces lividans presente egalement I'avantage 

30 d'accepter I'ADN etranger avec des efficacies de transformation 
elevees. 

Ainsi, I'invention concerne aussi une cellule hdte recombinante 
comprenant un acide nucleique selon I'invention, constitutif d'une 
collection d'acides nucleiques preparee selon un procede conforme a 
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I'invention, ou encore une cellule h6te recombinante comprenant un 
vecteur recombinant tel que defini precedemment. 

Selon un premier aspect, il peut s'agir d'une cellule hdte 
recombinante d'origine procaryote ou eucaryote. 
5 Avantageusement, une cellule recombinante selon I'invention 

est une bacterie, et de maniere tout a fait preferee une bacterie choisie 
parmi E.coliet Streptomyces. 

Selon un autre aspect, une cellule note recombinante selon 
I'invention est caracterisee en ce qu'il s'agit d'une levure ou encore d'un 

10 champignon filamenteux. 

L'invention a egalement trait a une collection de cellules hdtes 
recombinantes, chacune des cellules hotes constitutive de la collection 
comprenant un acide nucleique provenant d'une collection d'acides 
nucleiques realisee conformement a un procede de preparation d'une 

15 collection d'acides nucleiques a partir d'un echantillon de sol contenant 
des organismes tel que decrit ci-dessus. 

L'invention est egalement relative a une collection de cellules 
hotes recombinantes, chacune des cellules hotes constitutives de la 
collection comprenant un vecteur recombinant selon l'invention. 

20 En raison de la grande taille des inserts il est necessaire d'avoir 

une efficacite maximale de transformation. Dans ce but, une souche 
receptrice de Streptomyces lividans exprimant I'integrase de pSAM2 de 
facon constitutive afin de favoriser I'integration site-specifique du vecteur 
est preferee. Pour cela, le gene int sous contr6le d'un promoteur fort est 

25 integre dans le chromosome. La surproduction d'integrase n'induit pas 
de phenomenes d'excision (Raynal et al., 1998). 

La production d'un nouveau metabolite a partir de I'insert 
pourrait itre toxique pour Streptomyces si ('insert ne contient pas de 
genes de resistance a I'antibiotique produit ou si ce gene est peu ou pas 

30 exprime. La capacite des differents genes permettant a Streptomyces 
ambofaciens de resister a I'antibiotique qu'il produit est etudiee 
(Gourmelen et al., 1998; Pernodet et al., 1999). Certains de ces genes 
codent des transporteurs de type ABC susceptibles de conferer un large 
spectre de resistance. Ces genes peuvent etre introduits et surexprimes 

35 dans la souche hdte de Streptomyces lividans. 
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A I'inverse, une souche hypersensible aux antibiotiques peut 
etre utilisee (Pernodet et al., 1996), afin de detecter dans la banque la 
presence de genes de resistance. En effet, chez les micro-organismes 
producteurs d'antibiotique, ces genes de resistance sont souvent 
5 associes aux genes de la voie de biosynthese de I'antibiotique. La 
selection de clones resistants peut permettre d'effectuer simplement un 
premier tri avant les tests plus complexes de detection d'un nouveau 
metabolite produit par le clone. 

10 ISOLEMENT ET CARACTERISATION DE NOUVELLES SEQUENCES 
NUCLEOTID1QUES CQDANT POUR PES POLYKETIDES 
SYNTHASES. 

Selon I'invention. une collection de cellules notes 
15 recombinantes a ete obtenue apres transfection des cellules hdtes par 
une collection de vecteurs recombinants contenant chacun un insert 
d'acide nucleique provenant d'une collection d'acides nucleiques 
preparee conformement au precede selon I'invention. 

Plus precisement, les fragments d'ADN obtenus selon le 
20 precede de I'invention dans lequel il est mis en oeuvre Une etape 
d'extraction indirecte d'ADN des organismes contenus dans I'echantillon 
de sol ont ete tout d'abord clones dans le cosmide integratif pOS700l. 

L'etape d'insertion des fragments d'ADN dans le cosmide 
integratif pOS700l a ete realisee selon le precede de I'invention dans 
25 lequel des queues de polynucleotides homopolymeriques poly(A) et 
poly(T) ont ete ajoutees a I'extremite 3' respectivement de I'acide 
nucleique du vecteur et des fragments d'ADN a inserer. 

Les vecteurs recombinants ainsi construits ont ete encapsides 
dans des tetes de phage lambda et les phages obtenus ont ete utilises 
30 pour infecter des cellules de E. colt selon des techniques bien connues 
de I'homme du metier. 

Une banque d'environ 5000 clones de Escherichia coli a ete 

obtenue. 

Cette banque de clones a ete criblee avec des couples 
35 d'amorces specifiques d'une sequence nucleotidique codant pour une 
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enzyme impliquee dans la voie de biosynthese des polyketides, I'enzyme 
PKS de type I, aussi designee p-ketoacyl synthase . 

On rappelle ici que ies polyketides constituent une classe 
chimique d'une grande diversite structural comprenant un nombre 
5 important de molecules d'interet pharmaceutique tels que la tylosine, la 
monensine, la vermectine, rerythromycine, la doxorubicine ou encore le 
FK506. 

Les polyketides sont synthetises par condensation de 
molecules d'acetate sous Taction d'enzymes appelees polyketide 

10 synthases (PKSs). II existe deux types de polyketide synthases. Les 
polyketide synthases de type II sont impliquees en general dans la 
synthese des antibiotiques aromatiques polycycliques et catalysent la 
condensation d'unites acetate de facon iterative. 

Les polyketide synthases de type I sont impliquees dans la 

is synthese des polyketides macrocydiques ou macrolides et constituent 
des enzymes modulaires multifonctionnelles. 

Compte-tenu de leur interet therapeutique, il existe un besoin 
dans I'etat de la technique d'isoler et de caracteriser de nouvelles 
polyketides synthases qui peuvent etre utilisees pour la production de 

20 nouveaux composes pharmaceutiques, notamment de nouveaux 
composes pharmaceutiques a activite antibiotique. 

Le criblage de la banque de clones recombinants decrite ci- 
dessus a I'aide d'amorces PCR amplifiant selectivement des sequences 
nucleotidiques codant pour des polyketide synthases de type I a permis 

25 d'identifier des clones recombinants contenant des inserts d'ADN 
comprenant une sequence nucleotidique codant pour de nouvelles 
polyketide synthases. Les sequences nucleotidiques codant pour ces 
nouvelles polyketides synthases sont referencees comme les sequences 
SEQ ID N°33 a SEQ ID N°44 et SEQ ID N°1 15 a SEQ ID N°120. 

30 Un autre objet de I'invention consiste en un acide nucleique 

codant pour une nouvelle polyketide synthase I, caracterise en ce qu'il 
comprend I'une des sequences nucleotidiques SEQ ID N°34 a SEQ ID 
N°44 et SEQ ID N°115 a SEQ ID N°120. 

De preference, un tel acide nucleique se presente sous une 

35 forme isolee et/ou purifiee. 
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L'invention concerne aussi un vecteur recombinant comprenant 
un polynucleotide comprenant Tune des sequences SEQ ID N°34 a SEQ 
ID N°44 et SEQ ID N°115 a SEQ ID N°120 

L'invention a egalement trait a une cellule note recombinante 
5 comprenant un acide nucleique choisi parmi les polynucleotides 
comprenant Tune des sequences nucleotidiques SEQ ID N°34 a SEQ ID 
N°44 et SEQ ID N° 115 a SDEQ ID N°120 ainsi qu'a une cellule hdte 
recombinante comprenant un vecteur recombinant dans lequel est 
insere un polynucleotide comprenant I'une des sequences 
io nucleotidiques SEQ ID N°34 a SEQ ID N°44 et SEQ ID N°1 15 a SEQ ID 
N°120. 

Avantageusement, les vecteurs recombinants contenant un 
insert d'ADN codant pour une nouvelle polyketide synthase de type I 
selon l'invention sont des vecteurs de clonage et d'expression. 
15 De preference, une cellule note recombinante telle que decrite 

ci-dessus est une bacterie, une levure ou encore un champignon 
filamenteux. 

Les sequences en acides amines de nouvelles polyketide 
synthases provenant d'organismes contenus dans un echantillon de sol 

20 ont ete deduites des sequences nucleotidiques SEQ ID N°34 a SEQ ID 
N°44 ET SEQ ID N° 115 a SEQ ID N°120 ci-dessus. II s'agit des 
polypeptides comprenant I'une des sequences en acides amines SEQ ID 
N°48 a SEQ ID N°59 et SEQ ID N° 121 a 126. 

L'invention concerne encore de nouvelles polyketides 

25 synthases comprenant une sequence en acides amines choisie parmi 
les sequences SEQ ID N°48 a SEQ ID N"59 et SEQ ID N° 121 a SEQ ID 
N°126. 

Fait egalement partie de l'invention la sequence nucleotidique 
SEQ ID N°114 qui comprend six cadres ouverts de lecture qui codent 
30 respectivement les polypeptides de sequences SEQ ID N°121 a SEQ ID 
N°126. 

Fait egalement partie de l'invention la sequence nucleotidique 
SEQ ID N°113 du cosmide a26G1, qui contient la sequence 
complementaire de la sequence SEQ ID N°114. 
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On a aussi extrait et amplifie selon I'invention de I'ADN 
genomique provenant de souches bacteriennes pures, telles que 
Streptomyces coelicolor (ATCC N°101.478), Streptomyces ambofaciens 
(NRRL N°2.420), Streptomyces lactamandurans (ATCC N°27.382), 
5 Streptomyces rimosus (ATCC N°109.610), Bacillus subtilis (ATCC 
N°6633) ou encore Bacillus lichenifomis et Saccharopolyspora erythrea. 

Une amplification par PCR de I'ADN de chacune des souches 
bacteriennes decrites ci-dessus a ete effectuee a I'aide des couples 
d'amorces specifiques des sequences nucleiques de polyketide 
10 synthase de type I. 

De nouveaux genes de polyketide synthases de type I 
bacteriennes ont ainsi pu etre isoles et caracterises. II s'agit des 
sequences nucleiques de sequences SEQ ID N°30 a SEQ ID N°32. 

L'invention a done en outre pour objet des sequences 
15 nucleotidiques codant pour de nouvelles polyketides synthases de type I 
choisies parmi les polynucleotides comprenant I'une des sequences 
nucleotidiques SEQ ID N°30 a SEQ ID N°32. 

Font egalement partie de I'invention des vecteurs recombinants 
comprenant les sequences nucleotidiques codant pour de nouvelles 
20 polyketides synthases de type I definies ci-dessus. 

L'invention concerne aussi des cellules botes recombinantes 
caracterisees en ce qu'elles contiennent un acide nucleique codant pour 
une nouvelle polyketide synthase de type I comprenant une sequence 
nucleotidique choisie parmi les sequences SEQ ID N°30 a SEQ ID N°32 
25 ainsi que des cellules notes recombinantes comprenant un vecteur 
recombinant tel que defini ci-dessus. 

L'invention a egalement pour objet des polypeptides codes par 
des sequences comprenant les acides nucleiques SEQ ID N° 30 a 32, et 
plus precisement des polypeptides comprenant les sequences d'acides 
30 amines SEQ ID N° 47 a SEQ ID N" 50. 

L'invention a en outre pour objet un precede de production 
d'une polyketide synthase de type I selon I'invention, ledit precede de 
production comprenant les Stapes suivantes: 
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- obtention d'une cellule hote recombinante comprenant un 
acide nucleique codant pour une polyketide synthase de type I 
comprenant une sequence nucleotidique choisie parmi les sequences 
SEQ ID N°33 a SEQ ID N°44, SEQ ID N°30 a SEQ ID N°32 et SEQ ID 
N°115aSEQ ID N°120; 

- culture des cellules hotes recombinantes dans un milieu de 
culture approprie; 

- recuperation et, le cas echeant, purification de la polyketide 
synthase de type I a partir du surnageant de culture ou du lysat 
cellulaire. 

Les nouvelles polyketide synthases de type I obtenues selon le 
procede decrit ci-dessus peuvent etre caracterisees par fixation sur une 
colonne de chromatographie d'immuno-affinite sur laquelle des anticorps 
reconnaissant ces polyketides synthases ont ete prealablement 
immobilises. 

Les polyketide synthases de type I selon I'invention, et plus 
particulierement les polyketide synthases recombinantes decrites ci- 
dessus peuvent etre aussi purifiees par des techniques de 
chromatographie liquide a haute performance (HPLC), telles que par 
exemple des techniques de chromatographie en phase inverse ou de 
chromatographie d'echanges d'anions ou de cations, bien connues de 
I'homme du metier. 

Les polyketide synthases, recombinantes ou non 
recombinantes, selon I'invention peuvent etre utilisees pour la 
preparation d'anticorps. 

Selon un autre aspect, I'invention a done encore pour objet un 
anticorps reconnaissant specifiquement une polyketide synthase de type 
I selon I'invention ou un fragment peptidique d'une telle polyketide 
synthase. 

Les anticorps selon I'invention peuvent etre monoclonaux ou 
polyclonaux . Les anticorps monoclonaux peuvent §tre prepares a partir 
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de cellules d'hybridome selon la technique decrite par KOHLER et 
MILSTEIN C. (1975), Nature, Vol.256:495. 

Les anticorps polyclonaux peuvent etre prepares par 
immunisation d'un mammifere, en particulier des souris, des rats ou des 
5 lapins avec une polyketide synthase de type I selon Invention, le cas 
echeant en presence d'un compose adjuvant de I'immunite, tels que 
I'adjuvant complet de Freund, I'adjuvant incomplet de Freund, 
I'hydroxyde d'aluminium ou encore un compose de la famille des 
muramyl peptides. 

io Constituent egalement des " anticorps " au sens de la presente 

invention, les fragments d'anticorps tels que les fragments Fab, Fab', 
F(ab') 2 , ou encore les fragments d'anticorps simple chame contenant la 
partie variable (ScFv) decrits par MARTINEAU et al. (1998) J. Mol. Biol., 
Vol.280 (1): 117-127 ou encore dans le brevet US 4,946,778, ainsi que 

15 les anticorps humanises decrits par REINMANN KA et al. (1997), AIDS 
Res. Hum. Retroviruses, vol.13(11):933-943 ou par LEGER O.J et al. 
(1997), Hum. Antibodies, vol.8 (1): 3-16. 

Les preparations d'anticorps selon I'invention sont utiles 
notamment dans des tests immunologiques qualitatifs ou quantitatifs 
20 visant, soit a simplement detecter la presence d'une polyketide synthase 
de type I selon I'invention, soit a quantifier la quantite de cette polyketide 
synthase, par exemple dans le surnageant de culture ou le lysat 
cellulaire d'une souche bacterienne susceptible de produire une telle 
enzyme. 

25 Un au tre objet de I'invention consiste en un precede de 

detection d'une polyketide synthase de type I selon I'invention ou un 
fragment peptidique de cette enzyme, dans un echantillon, ledit precede 
comprenant les etapes de : 

30 a ) mettr e en contact un anticorps selon I'invention avec 

I'echantillon a tester; 

b) detecter le complexe antigene/anticorps eventuellement 

forme. 

35 
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L'invention est egalement relative a un kit ou necessaire de 
detection d'une polyketide synthase de type I selon l'invention dans un 
echantillon, comprenant : 

a) un anticorps selon l'invention; 
5 b) le cas echeant, des reactifs necessaires a la detection du 

complexe antigene/anticorps eventuellement forme\ 

Un anticorps dirige contre une polyketide synthase de type I 
selon l'invention peut etre marque a I'aide d'un marqueur detectable 
isotopique ou non isotopique, selon des precedes bien connus de 
10 I'homme du metier. 

Le criblage d'une banque d'ADN selon l'invention a I'aide d'une 
paire d'amorces hybridant avec des sequences cibles dont la presence 
est recherchee, telles que des sequences de la voie de biosynthese de 
la puromycine, des sequences du gene linA impliquees dans la 
is biodegradation du lindane ou encore des sequences codant pour des 
polyketides synthases de type I ont ete detaillees ci-avant. 

L'invention a done pour objet un precede de detection d'un 
acide nucleique de sequence nucleotidique determinee, ou de sequence 
nucleotidique structuralement apparentee a une sequence nucleotidique 
20 determinee, dans une collection de cellules hotes recombinantes selon 
l'invention, caracterise en ce qu'il comprend les etapes suivantes: 

- mettre en contact la collection de cellules hotes 
recombinantes avec un couple d'amorces hybridant avec la sequence 
nucleotidique determinee ou hybridant avec la sequence nucleotidique 

25 structurellement apparentee a une sequence nucleotidique determinee; 

- realiser au moins trois cycles d'amplification ; 

- detecter I'acide nucleique eventuellement amplifie. 

Pour les conditions d'amplification appropriees en fonction des 
30 sequences cibles recherchees, I'homme du metier pourra se referer 
avantageusement aux exemples ci-dessous. 

Selon un autre aspect, l'invention concerne aussi un precede 
de detection d'un acide nucleique, de sequences nucleotidiques 
determinees, ou de sequences nucleotidiques structurellement 
35 apparentees a une sequence nucleotidique determinee, dans une 
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collection de cellules notes recombinantes selon l'invention, caracterise 
en ce qu'il comprend les etapes suivantes: 

- mettre en contact la collection de cellules notes 
recombinantes avec une sonde hybridant avec la sequence 

5 nucleotidique determinee ou hybridant avec une sequence nucleotidique 
structurellement apparentee a la sequence nucl6otidique determinee; 

- detecter I'hybride eventuellement forme entre la sonde et les 
acides nucleiques compris dans les vecteurs de la collection. 

io Pour effectuer le criblage d'une banque d'ADN selon I'invention 

en vue de detecter la presence d'une sequence nucleotidique codant 
pour un polypeptide capable de degrader le lindane, on a detecte les 
clones recombinants d'interet par leur phenotype correspondant a leur 
capacite a degrader le lindane. Dans ce but, les clones isoles et/ou des 

is ensembles de clones de la banque d'ADN preparee ont ete mis en 
culture dans un milieu de culture en presence de lindane et la 
degradation du lindane a ete observee par la formation d'un halo trouble 
dans I'environnement immediat des cellules. 

L'invention concerne aussi un precede pour identifier la 

20 production d'un compose d'interet par une ou plusieurs cellules hotes 
recombinantes dans une collection de cellules hotes recombinantes 
selon l'invention, caracterise en ce qu'il comprend les etapes suivantes: 

- culture des cellules holes recombinantes de la collection dans 
un milieu de culture approprie; 

25 - detection du compose d'interet dans le surnageant de culture 

ou dans le lysat cellulaire d'une ou plusieurs des cellules recombinantes 
cultivees. 

L'invention a en outre pour objet un precede pour selectionner 
une cellule hdte recombinante produisant un compose d'interet dans une 
30 collection de cellules hotes recombinantes selon I'invention, caracterise 
en ce qu'il comprend les etapes suivantes: 

- culture des cellules hotes recombinantes de la collection dans 
un milieu de culture approprie; 
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- detection du compose d'interet dans le surnageant de culture 
ou dans le lysat cellulaire d'une ou plusieurs des cellules h6tes 
recombinantes cultivees; 

- selection des cellules notes recombinantes produisant le 
5 compose d'interet. 

L'invention conceme encore un precede pour la production d'un 
compose d'interet caracterise en ce qu'il comprend les etapes suivantes: 

- cultiver une cellule hdte recombinante selectionnee selon le 
10 precede decrit ci-dessus; 

- recuperer et, le cas echeant, purifier, le compose produit par 
ladite cellule note recombinante. 

L'invention est egalement relative a un compose d'interSt 
caracterise en ce qu'il est obtenu selon le precede ci-dessus decrit. 
15 Un compose d'interet selon l'invention peut consister en un 

polyketide produit grace a Texpression d'au moins une sequence 
nucleotidique comprenant une sequence choisie parmi les sequences 
SEQ ID N°33 a 44, SEQ ID N°30 a 32 et SEQ ID N°115 a SEQ ID 
N°120. 

20 L'invention concerne encore une composition comprenant un 

polyketide produit grace a Texpression d'au moins une sequence 
nucleotidique comprenant une sequence choisie parmi les sequences 
SEQ ID N°33 a SEQ ID N°44, SEQ ID N°30 a SEQ ID N°32, et SEQ ID 
N°115aSEQ ID N°120. 

25 Un polyketide produit grace a Texpression d'au moins une 

sequence nucleotidique ci-dessus est preferentiellement le produit de 
Tactivite de plusieurs sequences codantes incluses au sein d'un operon 
fonctionnel dont les produits de traduction sont les differentes enzymes 
necessaires a la synthese d'un polyketide, Tune des sequences ci- 

30 dessus etant comprise et exprimee dans ledit operon. Un tel operon 
comprenant une sequence d'acide nucleique selon invention codant 
pour une polyketide synthase peut etre construit par exemple selon 
Tenseignement de Borchert et al. (1992). 

L'invention est encore relative a une composition 

35 pharmaceutique comprenant une quantite pharmacologiquement active 
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d'un polyketide selon I'invention, le cas echeant en association avec un 
vehicule pharmaceutiquement compatible. 

De telles compositions pharmaceutiques seront 
avantageusement adaptees pour I'administration, par exemple par voie 
5 parenterale, d'une quantite d'un polyketide synthetise par une polyketide 
synthase de type I selon I'invention allant de1ug/kg par jour a 10 mg/kg 
par jour, de preference au moins 0,01 mg/kg par jour et de maniere tout 
a fait preferee entre 0,01 et 1 mg/kg par jour. 

Les compositions pharmaceutiques selon I'invention peuvent 
io etre indifferemment administrees par voie orale, rectale, parenterale, 
intraveineuse, sous-cutanee ou encore intradermique. 

L'invention concerne aussi I'utilisation d'un polyketide obtenu 
grace a I'expression d'une polyketide synthase de type I selon I'invention 
pour la fabrication d'un medicament, en particulier d'un medicament a 
15 activite antibiotique. 

L'invention sera en outre illustree, sans pour autant etre limitee, 
par les figures et les exemples ci-apres. 

La figure 1 illustre le schema des differentes etapes de lyse 
20 effectuees selon les protocoles 1, 2, 3n 4a, 4b, 5a, et 5b decrits a 
I'exemple 1 . 

La Figure 2 illustre une. electrophorese sur gel d'agarose 0.8% 
des ADN extraits a partir de 300 mg du sol n°3 (Cote St Andre) apres 
differents traitements de lyse (protocoles 1 a 5, cf. Fig. 1). M : marqueur 
25 de poids moleculaire de phage lambda 

La Figure 3 illustre la proportion de differents genres 
d'actinomycetes cultives a la suite des traitements 1 a 5 (cf. Fig. 1). Le 
nombre d'ufc (unite formant colonie) a ete determine sur un milieu 
30 selectif pour ce groupe de bacteries. Un nombre total d'environ 400 
colonies a ete analyse. 

La Figure 4 illustre la. recuperation d'ADN de phage lambda 
digere par Hin6\\\ additionne dans les sols a differentes concentrations 
35 avant (G) ou apres (G*) broyage. Les traitements T (chocs thermiques) 
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et S (sonication) sont des traitements additionnels de lyse. La 
quantification a ete realisee par analyse au phospho-imageur apres 
hybridation en dot-blot. Un echantillon de chaque sol a ete utilise pour 
chaque concentration de phage lambda ajoute. Les caracteristiques des 
5 sol sont reproduites dans le tableau 1 . Les echantillons correspondant a 
10 et 15 ug d'ADN ajoute n'ont pas ete traites. 

La Figure 5 illustre I'amplification par PCR des ADN extraits a 
partir de sol n°3 selon les protocoles 1, 2, 3, 5a et 5b. Les amorces 
10 FGPS 122 et FGPS 350 (tableau 2) ont ete utilises afin de cibler 
Streptosporangium spp. indigenes. Les extraits d'ADN ont ete utilises 
non dilues ou dilues au 1/10 6me et 1/100* me . M : marqueur de poids 
moleculaires 123 pb ( Gibco BRL), C : contr6le d'amplification sans ADN. 

15 La Figure 6 illustre les quantites d'ADN extrait apres inoculation de 

spores (a) ou de mycelium (b) de S. IMdans OS48.3 inocules dans les 
sols a differentes concentrations. La quantites de mycelium ajoutee dans 
le sol correspond au nombre de spores inoculees dans le milieu de 
germination. Environ 50% des spores ont germe, le nombre de cellules 

20 ou de genomes contenues dans les hyphes des spores germees n'a pas 
ete determine. Les quantites de spores et de mycelium inoculees ne 
sont done pas directement comparables. Le protocole d'extraction a ete 
mene selon le protocole 6 (cf. section materiel et methodes). Le symbole 
(') indique que de I'ARN a ete inclus dans le tampon d'extraction. LADN 
25 cible a ete amplifie par PCR avec les amorces FGPS 516 et FGPS 517, 
la quantification a ete realisee par phosphoimageur apres hybridation en 
dot blot en utilisant le sonde FGPS 518. Un echantillon de chaque sol a 
ete utilise pour chaque concentration d'hyphes ou de spores. Les 
caracteristiques des sols sont decrites dans le tableau 1. 

30 

La figure 7 representee I'arbre phylogenetique obtenu par 
1'algorithme de Neighbour Joining , positionnant les sequences d'ADNr 
16S contenues dans la banque d'ADN du sol, par rapport a des 
bacteries de references cultiyees. 
35 En grise:.les sequences issues des pools de clones de la banque. 
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Les valeurs de bootstrap sont indiquees au niveau des noeuds, 
apres reechantillonnage de 100 repetitions. La barre d'echelle indique le 
nombre de substitutions par site. Le numero d'acces des sequences 
5 dans la base de donnees Genbank est indique entre parentheses. 

La figure 8 represente un schema du vecteur pOSint 1 . 

La figure 9 represente un schema du vecteur pWED1 . 

10 

La figure 10 represente un schema du vecteur pWE15 (ATCC 
N° 37503). 

La figure 11 represente un schema du vecteur pOS 700I. 

15 

La figure 12 represente un schema du vecteur pOSVOIO. 

La figure 13 represente le fragment contenant un site "cos" 
insere dans le plasmide pOSVOIO au cours de la construction du vecteur 
20 pOSV 303. 

La figure 14 represente un schema du vecteur pOSV 303. 

La figure 15 represente un schema du vecteur pE1 16. 

25 

La figure 16 represente un schema du vecteur pOS 700 R. 
La figure 17 represente un schema du vecteur pOSV 001. 
30 La figure 18 represente le schema du vecteur pOSV 002. 

La figure 19 represente un schema du vecteur pOSV 014. 
La figure 20 represente un schema du vecteur pBAC 1 1 . 
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La figure 21 represente un schema du vecteur pOSV 403. 

La figure 22 represente les gels d'electrophorese d'ADN de la 
banque apres digestion par les enzymes BamHI et Dral des clones 
5 positifs de la banque criblee avec les oligonucleotides PKS-I. 

La figure 23 illustre la production de puromycine par les 
recombinants de S. lividans comparee a la production de la souche 
sauvage S. alboniger. 

10 

La Figure 24 illustre Alignement de PKSs du sol avec les sites 
actifs conserves d'autres PKSs. Les references pour chaque peptide 
sont indiquees. Les domaines beta-ketoacyl synthase ont ete alignes en 
utilisant le programme PILEUP de GCG (Wisconsin Package Version 
15 9.1 , Genetics Computer Group, Madison, Wise). 

La Figure 25 illustre la construction d'un cosmide integratif 
conjugatif. 

20 La Figure 26 illustre la construction d'un BAC integratif 

conjugatif. 

La figure 27 illustre le schema de construction du vecteur pOSV 

308. 

25 

La figure 28 illustre le schema de construction du vecteur 
POSV306. 

La figure 29 illustre le schema de construction du vecteur 
30 pOSV307. 

La figure 30 illustre le schema de construction du vecteur 

PMBD-1. 
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La figure 31 presente une carte detaillee du plasmide pMBD-2 
ainsi qu'un schema de construction du vecteur pMBD-3. 

La figure 32 illustre une carte detaillee du plasmide pMBD-4. 

5 

La figure 33 illustre le schema de construction du plasmide 
pMBD-5 a partir du plasmide pMBD-1 . 

La figure 34 illustre la carte detaillee du vecteur pBTP-3. 

10 

La figure 35 illustre le schema de construction du vecteur 
pMBD-6 a partir du vecteur pMBD-1. 

La figure 36 illustre la carte du cosmide a26G1 dont I'insert 
15 d'ADN contient des cadres ouverts de lecture codant pour plusieurs 
polyketides synthase. 

La figure 37 est un schema representant I'insert d'ADN (brin +) 
du cosmide a26G1, sur lequel sont positionnes les differents cadres de 
20 lecture codant pour plusieurs polyketides synthase. 

EXEMPLES: 

EXEMPLE 1: Pro cede de preparation d'une collection d'acides 
nucleiaues a part ir d'un echantillon de sol contenant des 
25 orqanismes. comprena nt une etape d'extraction directe d'ADN a 
partir de I'echantillon de sol. 

1. MATERIEL ET METHODES 

30 1-1 SOLS: Les caracteristiques des six sols utilises dans cette 

etude sont listees dans le tableau 1. 

La teneur en argile et en matiere organique va respectivement 
de 9 a 47% et de 1 ,7 a 4,7%, le pH variant de 4,3 a 5,8. 

Des echantillons de sol ont ete collectes a partir de la couche 
35 superficielle de 5 a 10 cm de profondeur. Toutes les racines visibles ont 
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ete eliminees et les sols ont ete conserves a 4°C pendant quelques jours 
si necessaire, apres quoi ils ont ete seches pendant 24 heures a la 
temperature ambiante et tamises (taille moyenne de maille 2 mm) avant 
d'etre conserves jusqu'a plusieurs mois a 4°C. 

5 

1.2 SOUCHES BACTERIENNES ET CONDITIONS DE CULTURE: 

L'ADN extracellulaire ainsi que les souches bacteriennes fournissant des 
cellules vegetatives, des spores ou des hyphae, utilisees pour innoculer 
les echantillons de sol, ont ete choisies de telle sorte que leur presence 

10 puisse etre suivie specifiquement. 

Afin d'obtenir de grandes quantites d'ADN extracellulaire, la 
souche lysogenique de E.coli 1192 Hfr P4X (metB), contenant le phage 
lambda CI857 Sam7, a ete cultivee sur milieu Luria-Bertani (LB) pendant 
deux heures a 30°C, puis 30 minutes a 40°C, puis 3 heures a 37°C. 

is L'ADN du phage lambda a ete extrait selon la technique decrite par 
SAMBROOK J. et al. (1989) Molecular Cloning: A Laboratory Manual, 
2nd, ed. Cold Spring Harbor Laboratory, Cold Spring Harbor N.Y. 

La souche avirulente de Bacillus anthracis (STERNE 7700) a 
ete utilisee comme inoculum de cellules bacteriennes. Bacillus anthracis 

20 a ete multiplie sur un bouillon de culture de type u trypticase soy broth " 
(TSB) (Biomerieux, Lyon, France) pendant environ 6 heures, en verifiant 
que la D0 6 oo soit maintenue en dessous de 0,6. Ces conditions 
permettent le developpement des cellules vegetatives sans formation de 
spores (Patra et al., (1996), FEMS Immunol. Medical Microbiology, 

25 vol. 1 5:223-231 .). Les spores de Streptomyces lividans OS48.3 (CLERC- 
BARDIN et al. non publie) ont ete eliminees mecaniquement des 
cultures de I'organisme sur un milieu R2YE (HOPWOOD et al., (1985), 
Genetic Manipulation of Streptomyces-A Laboratory Manual. The John 
Innes Foundation , Norwich .United Kingdom). Les hyphae de S.lividans 

30 OS48.3 ont ete obtenus a partir des spores en pre-germination, car Ton 
s'attendait a ce que ('utilisation de hyphae courtes minimise la rupture et 
la perte subsequente d'ADN. Les spores ont ete mises en suspension 
dans du tampon TES (Acide N-Tris [hydroxymethyl]methyl-2- 
aminoethanesulfonique ; Sigma-Aldrich Chimie, France) (0.05M; pH 8) 

35 (Holben WE et al., (1988), APPL. Environ. Microbiol. vol.54:703-711, 



PCT/FR00/03311 



puis ont ete soumises a un choc thermique (50°C pendant 10 minutes 
suivi d'un refroidissement sous un courant d'eau froide puis ajoutees a 
un volume egal de milieu de pre-germination (extrait de levure 1%, 
casaminoacides 1% CaCI 2 0,01 M). 

La solution a ete incubee a 37°C sur un agitateur. La proportion 
de spores germees a ete estimee a environ 50%, en accord avec les 
resultats de HOPWOOD et al. (1985). Apres centrifugation, les culots ont 
ete resuspendus dans du tampon TES, ajoutes a 3% de milieu TSB, et 
incubes a 37°C jusqu'a I'obtention d'une DO 450 de 0,15 (HOPWOOD et 
al. , (1985)). Streptomyces hygroscopicus SWN 736 et 
Streptosporangium fragile AC1296 (Institute Pushino, Moscou) ont ete 
cultives selon des techniques decrites par HICKEY et TRESNER (1952). 

L'ADN des spores et des hyphae de S. Lividans a ete extrait a 
partir des cultures pures selon le protocole de lyse 6 decrit ci-dessous 
(excepte qu'aucun broyage n'a ete realise), tandis que les spores de S. 
hygroscopicus et de S. fragile ont ete extraites par lyse 
chimique/enzymatique (Hintermann et al., 1981). 

1.3 CHOIX DU TAMPON D'EXTRACTION: Un tampon TENP (50 mM 
Tris, 20 mM EDTA, 100 mM NaCI, 1% pds/vol de 
polyvinylpolypyrrolidone developpe par PICARD (1992) a ete utilise. Des 
tampons similaires ont ete ulterieurement utilises par d'autres auteurs 
(CLEGG et al., 1997; KUSKEetal., 1998; ZHOUetal., 1996). 

Le Tris et I'EDTA protegent I'ADN de I'activite nuclease, le NaCI 
apporte un effet dispersant et la PVPP absorbe les acides humiques et 
les autres composes phenoliques (HOLBEN et al. (1988); PICARD et al., 
(1992). 

Dans cette etude, I'efficacite d'extraction de ce tampon a ete 
evaluee a differents pH (6,0 - 10,0) en utilisant 20 sols differents ayant 
une gamme de pH de 5,8 a 8,3 et une teneur en matiere organique entre 
0,2 et 6,3%. Ces vingt sols (les autres caracteristiques ne sont pas 
indiquees) ont ete utilises uniquement dans cette experience. La quantite 
dADN a ete determinee de maniere colorimetrique comme decrit par 
RICHARD (1974), et detaille ci-apres. 
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1.4 PROTOCOLE DE LYSE IN SITU ET D'EXTRACTION D'ADN: 

Plusieurs protocoles utilisant un nombre croissant d'etapes ont ete 
testes afin d'evaluer I'efficacite de differentes techniques pour lyser les 
microbes du sol in situ. Pour ces experiences, la microflora indigene du 

5 sol a ete ciblee dans six sols. Des experiences additionnelles ont ete 
conduites afin d'etudier les effets des traitements de lyse sur I'ADN 
libere, en analysant les quantites et la qualite d'ADN recupere provenant 
d'un ADN de phage lambda prealablement additionne aux sols. 

Une fois qu'un protocole optimise (designe protocole 6) a ete 

10 developpe, ce protocole a ete utilise pour quantifier I'ADN provenant 
d'Actinomyc&tes indigenes et d'ADN provenant de bacteries Gram- 
positives inoculees dans les sols selectionnes. Dans tous les cas, les 
echantillons de sol ont ete seches et passes au tamis comme decrit ci- 
dessus. 

is Apres broyage, 0,5 ml de tampon TENP ont ete ajoutes a 200 

mg poids sec de sol excepte pour le protocole 1 dans lequel le tampon a 
ete ajoute a un sol non broye). 

Pour les divers traitements de lyse (voir ci-dessous), les 
suspensions de sol ont ete passees au Vortex pendant dix minutes et 

20 centrifugees (4000 g pendant cinq minutes), apres quoi une fraction 
aliquote (25 ul) du surnageant a ete analysee par electrophorese sur gel 
(0,8% d'agarose). 

Une autre fraction aliquote du surnageant representant un 
volume connu, generalement 350 ul, a ete precipitee avec de 

25 I'isopropanol. 

Cinq fractions aliquotes (representant de I'ADN derive de 1 g de 
sol) ont ete reunies et resuspendues dans 100 pi d'un tampon TE sterile 
(10 mM Tris, 1 mM EDTA, pH 8,0) avant purification (protocole D, voir ci- 
dessous) et quantification, soit par hybridation (Dot Blot) de I'ADN total, 

30 soit par hybridation (Dot Blot) des produits d'amplification PCR (voir ci- 
dessous). 

Les signaux d'hybridation ont ete quantifies par imagerie par 
phosphorescence (technique de M phospho-imaging " voir ci-dessous). 
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1.5 EVALUATION DES METHODES DE LYSE CELLULAIRE IN SITU: 
La qualite et la quantite de I'ADN extrait apres un nombre croissant 
d'etapes de traitement de lyse (protocole 2-5b) ont ete comparees a 
celles de I'ADN extracellulaire obtenu apres lavage du sol avec un 
5 tampon d'extraction (protocole 1; voir aussi figure 1). 

Protocole 1 : Pas de traitement de Ivse. 

Le tampon TENP a ete ajoute a un sol non broye, une etape 
10 d'extraction d'ADN a ete realisee comme decrit ci-dessus. 

Protocole 2. Brovage du sol sulvi d'une extraction d'ADN. 

Deux types de dispositifs differents ont ete utilises pour le 
15 broyage du sol. 

Afin de comparer leur efficacite respective, 5g de sol sec ont 
ete broyes pendant 30 secondes dans un broyeur contenant des 
anneaux de tungstene, ou pendant des temps varies jusqu'a 60 minutes 
dans un broyeur de sol contenant un mortier et des billes en agate (20 
20 mm de diametre). 

Le tampon TENP est ensuite ajoute et I'ADN est extrait comme 
decrit ci-dessus. 

Les resultats d'electrophorese sur gel ont montre qu'un broyage 
de 40 minutes en utilisant des billes en agate etaient necessaires afin 
25 d'obtenir des quantites d'ADN extraits equivalentes a celles obtenues 
apres 30 secondes de broyage en utilisant des anneaux de tungstene. 

La distribution de taille des fragments d'ADN est similaire quelle 
que soit la methode employee. 

Ainsi, ces traitements ont ete consideres comme equivalents et 
30 celui qui sera utilise dans les protocoles decrits ci-dessous ne sera en 
consequence pas specifie. 

Dans les protocoles 3 a 5, I'efficacite de plusieurs autres 
traitements de lyse ulterieure au broyage du sol a ete testee, soit 
separement, soit dans differentes combinaisons. 

35 
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Protocole 3 : 

Ce protocole est identique au protocole 2 , sauf qu'il comprend 
une etape d'homogeneisation a I'aide d'un mixeur de type Ultraturrax 
5 (Janker et Kunkel, IKA Labortechnik, Allemagne) regie a la moitie de la 
Vitesse maximale pendant 5 minutes. 

PROTOCOLES 4a et4b: 

io Ces protocoles sont identiques au protocole 3 a I'exception 

d'une etape additionnelle de sonication. 

Deux types de dispositifs sonicateurs ont ete compares : un 
sonicateur a micropointe de titane (600W Vibracell Ultrasonicator, 
Bioblock, lllkirch, France) (Protocole 4a) et un sonicateur de type Cup 
15 Horn (protocole 4b). 

La micropointe Vibracell produisant des ultrasons est en 
contact direct avec la solution de sol. 

En ce qui concerne le dispositif de type Cup Horn, la solution de 
sol est conservee dans des tubes qui sont places dans un bain d'eau a 
20 travers lequel passent les ultrasons. 

Des experiences preliminaires ont ete realisees afin de 
determiner les conditions optimales pour les deux sonicateurs (resultats 
non presentes). 

Le meilleur compromis, en terme de quantite d'ADN extrait et 
25 de taille de fragments, consiste en une sonication avec la micropointe de 
titane et le sonicateur de type Cup Horn respectivement pendant 7 et 10 
minutes, en reglant la puissance a 15 W et avec des cycles actifs a 50%. 

Protocoles 5a et 5b: 

30 

Apres sonication avec une micropointe de titane ou un dispositif 
de type Cup Horn (respectivement protocoles 4a et 4b) du lysozyme et 
de I'achromopeptidase ont ete ajoutes, chacune des enzymes a une 
concentration finale de 0,3 mg/ml. 
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Les suspensions de sot ont ete incubees pendant 30 minutes a 
37°C, apres quoi du lauryl sulfate a une concentration finale de 1 % a 
ete ajoute, puis des suspensions ont ete incubees pendant 1 heure a 
60°C avant centrifugation et precipitation comme decrit ci-dessus. 

5 En plus des protocoles decrits ci-dessus, I'effet de la sonication 

(Cup Horn, voir protocole 4b) et de chocs thermiques (30 secondes dans 
I'azote liquide suivi de trois minutes dans I'eau bouillante, les traitements 
etant repetes trois fois ) sur I'ADN de phage lambda digere par Hindlll 
prealablement ajoute au sol ont ete examines (voir ci-apres). 

10 Des chocs thermiques ont ete suggeres dans I'etat de la 

technique comme des moyens de lyse cellulaire in situ (PICARD et al. 
(1992)).. Cependant, du fait qu'un tel traitement a un effet 

prejudiciable sur I'ADN libre (voir la section resultats) il n'a pas ete inclus 
dans les protocoles decrits ci-dessus. 

15 

PROTOCOLE OPTIMISE 

Apres evaluation des differents traitements de lyse, un 
protocole optimise a ete defini, designe protocole 6 . Le protocole 6 est 

20 identique au protocole 5b excepte que, avant la sonication, les 
suspensions de sol sont soumises a un traitement par Vortex puis 
agitees par rotation sur une roue pendant deux heures avant d'etre 
congelees a - 20°C. 

Apres decongelation, les suspensions de sol sont passees au 

25 Vortex pendant 10 minutes avant sonication. Le protocole 6 a ete utilise 
dans les experiences dans lesquelles les sols ont ete ensemences avec 
des cellules bacteriennes ainsi que dans les experiences dans lesquelles 
les actinomycetes indigenes ont ete quantifies (voir ci-dessous). 

30 1 .6 COMPTAGE AU MICROSCOPE: Uefficacite du broyage du 

sol comme methode pour lyser des cellules bacteriennes a ete examinee 
au microscope. 

5g de sol brut seche ont ete melanges dans un dispositif de 
type Waring Blender avec 50 ml d'eau sterilisee ultrapure pendant 1 ,5 
35 minutes; simultanement, 1g (poids sec) de sol broye (protocole n°2) a 
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ete mis en suspension dans 10 ml par agitation pendant 10 minutes. Les 
suspensions de sol ont fait t'objet de dilutions en series et de I'acridine 
orange a ete ajoutee a une concentration finale de 0,001%. 

Apres 2 minutes, les suspensions ont ete filtrees a travers une 
5 membrane de marque NUCLEOPORE de type 0,2 urn black. Chaque 
filtre a ete rince avec de I'eau sterile lysee, traitee avec 1 ml 
d'isOpropanol pendant 1 minute afin de fixer les cellules bacteriennes, 
puis rince de nouveau. 

Les cellules bacteriennes ont ete comptees a I'aide d'un 
10 microscope a epifluorescence du type Zeiss Universal avec un objectif 
100x. Pour chacun des types de sol, trois filtres ont ete comptes, et au 
moins 200 cellules ont ete comptees sur chacun des filtres. 

1.7 NUMERATION DES ACTINOMYCETES CULTIVABLES ET 
is NOMBRE TOTAL D'UNITES FORMANT COLONIES (CFU): Les 

actinomycetes ayant survecu aux traitements de lyse (protocoles 1-5) 
ont ete examines specifiquement avec le sol n°3 (C6te Saint Andre, voir 
tableau 1). 

Apres une dilution de 10 fois d'une solution d'extrait de levure 
20 (6% poids/volume) et de SDS (0,05%) afin d'induire la germination 
(Hayakawa et al. (1988)), les suspensions de sol ont ete diluees en 
series dans de I'eau sterile, incubees a 40°C pendant 20 minutes et 
ensemencees sur du milieu HV (HAYAKAWA et al., 1987). 

Le milieu HV a ete additionne de actidione (50 mg/l) et de 
25 nystatine (50 mg/ml). 

Les colonies d'actinomycetes ont ete comptees apres 
incubation pendant 15 jours a 28°C. 

Au total, environ 400 colonies ont ete examinees. 
L'identification a ete realisee sur la base des caracteristiques 
30 morphologiques macro-et microscopiques ainsi que sur I'analyse de la 
teneur en acide diaminopimelique des isolats (SHIRLING et al., 1966); 
STANECK et al., 1974; WILLIAMS et al.,1993). 

La quantite totale de bacteries cultivates (CFU totales) a ete 
egalement determinee pour chacun des protocoles de lyse 1 a 5. Les 
35 suspensions de sol ont ete diluees en serie et ensemencees en triple sur 
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un milieu agar Bennett (WAKSMAN et al., 1961) additionne de nystatine 
et d'actidione (chacune a 50 mg/l). 

Chaque bolte de Petri a ete couverte d'un filtre de nitrate de 
cellulose (Millipore) et incubee pendant trois jours a 28°C. Apres la 
5 numeration des colonies sur les membranes, les filtres ont ete retirees et 
les boites de Petri ont ete a nouveau incubees pendant 7 jours a 28°C 
puis comptees a nouveau. 

1.8 RECUPERATION DE L'ADN DE PHAGE LAMBDA AJOUTE AUX 
io SOLS: L'ADN de phage lambda a ete digere avec Hind III, extrait par un 
melange de phenol-chloroforme, precipite puis resuspendu dans de I'eau 
sterile ultrapure selon des protocoles standard (SAMBROOK et 
al.,1989). 

Des dilutions correspondant respectivement a 0, 2,5, 5, 7,5, 10 
15 et 15 pg d'ADN/g de poids sec de sol ont ete preparees dans des 
volumes de 60 pi. Ces dilutions d'ADN ont ete ajoutees a des lots de 5g 
de sol sec qui ont ete subsequemment vigoureusement melanges par 
vortex pendant 5 minutes avant broyage. 

L'ADN de phage lambda a aussi ete ajoute a un sol avant 
20 broyage a des concentrations correspondant a 0, 10 et 15 pg d'ADN/g 
de poids sec du sol. 

Apres broyage, le tampon d'extraction est ajoute et I'ADN est 
extrait selon le protocole 2(voir ci-dessus). 

25 1.9 SATURATION DES SITES D' ADSORPTION AVEC DE L'ARN: Afin 
de determiner si la saturation des sites d'adsorption d'acides nucleiques 
des colloides du sol pouvait augmenter le taux de recuperation de I'ADN, 
le terreau sablonneux (sol n°4) et le sol argileux (sol n°5) ont ete 
incubes avec une solution d'ARN avant tout autre traitement. 

30 De TARN commercial de Saccharomyces cerevisiae 

(BOHRINGER MANNHEIM, MEYLAN, France) a ete dilue dans du 
tampon phosphate (pH 7,1) et ajoute aux echantillons de sol sec et 
tamises (2 ml/g de sol) a des concentrations finales de 20, 50 et 100 mg 
d'ARN/g de poids sec du sol. 
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Les tubes contenant les suspensions de sol ont ete agites par 
rotation pendant deux heures a temperature ambiante, Apres 
centrifugation, les culots de sol ont ete seches au four (50°C) pendant la 
nuit. L'ADN de phage lambda a ensuite ete ajoute aux sols (0, 20 ou 50 
5 ug/g de poids sec du sol) afin de simuler le sort de I'ADN libere apres 
lyse cellulaire. 

L'ADN a ete extrait selon le protocole n°2. II a ete determine par 
la suite qu'un effet identique de 1'addition d'ARN sur la recuperation 
dADN pouvait etre atteint en ajoutant I'ARN directement au tampon 
10 d'extraction. 

Cette procedure simplifiee a ete utilisee pour le sol argileux n°5 
dans les experiences dans lesquelles les micro-organismes ont ete 
inocules dans les sols. 

L'ARN a ensuite ete ajoute a une concentration correspondant 
15 a 50 mg d'ARN/g de poids sec du sol. 

1.10 DETERMINATION QUALITATIVE ET QUANTITATIVE DE 
L'EFFICACITE DES PROTOCOLES D'EXTRACTION: La qualite de 
I'ADN (absence de degradation) a ete estimee sur la base de la taille des 

20 fragments d'ADN ou de la position relative des bandes de migration 
d'ADN apres electrophorese d'une fraction aliquote d'une solution d'ADN 
sur un gel d'agarose a 0,8%. 

L'intensite de fluorescence a permis une estimation semi- 
quantitative des rendements d'extraction. 

25 Une autre fraction aliquote a ete utilisee pour des 

determinations quantitatives de la teneur en ADN par hybridation (Dot 
Blot) et analyse au phospho-lmager. Le protocole d'hybridation sur tache 
a ete decrit par SIMONET et al. (1990). 

Les membranes d'hybridation (GeneScreen plus, Life Science 

30 Products, Boston, Etats-Unis d'Amerique) ont ete prehybridees pendant 
au moins 2 heures dans 20 ml d'une solution contenant 6 ml de 20 x 
SSC, 1 ml de solution de DENHARDT's, 1 ml de SDS a 10% et 5 mg 
d'ADN de sperme de saumon. 

L'hybridation a ete realisee pendant une nuit dans la meme 

35 solution en presence d'une sonde marquee prealablement a deux 
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lavages des membranes dans un tampon SSC 2 x pendant 5 minutes a 
temperature ambiante, puis un troisieme lavage dans du tampon SSC 2 
x, SDS 0,1% et un quatrieme lavage dans du tampon SSC 1 x, SDS 
0,1% pendant 30 minutes a la temperature d'hybridation. 
5 Les signaux d'hybridation ont ete quantifies avec un systeme 

d'imagerie radioanalytique BIORAD (Molecular Analyst Software, 
BIORAD, Ivry S/Seine, France). 

Afin de quantifier la quantite totale d'ADN derivee de la 
microflore indigene, les differents sols ont ete extraits selon les 
10 protocoles n°1 a 5. L'ADN non amplifie a ete applique sur les 
membranes de Dot Blot et hybride en utilisant la sonde universelle 
FGPS431 (tableau 2). 

Cette sonde, qui hybride aux positions 1392-1406 du gene de 
I'ADNr 16S de E.coli (Amann et al. (1995)) a ete marquee a ses 
15 extremites avec un ATPa 32 P en utilisant une polynucleotide kinase 
T4(BOEHRINGER MANNHEIM, Melan, France). 

Une courbe de calibration a ete preparee a partir de I'ADN de 
E.coli DH5a. La conversion des calculs aux bacteries du sol a necessite 
une simplification, partant de I'hypothese que le nombre de copies 
20 moyen (rrn) est de 7, comme pour E.coli. 

L'ADN de phage lambda digere par Hindlll a ete utilise pour 
quantifier la recuperation de I'ADN extracellulaire. Des extraits non 
amplifies a partir de sols, auxquels de I'ADN de phage lambda avait ete 
ajoute, ont ete hybrides avec de I'ADN de phage lambda digere par 
25 Hindlll marque au hasard en utilisant le fragment Klenow (Boehringer 
Mannheim, Melan, France). 

Les quantites d'ADN ont ete calculees par interpolation a partir 
d'une courbe de calibration preparee avec I'ADN purifie. 

La quantite totale d'ADN extrait a partir des sols n°1, 2, 3, 4 et 6 
30 selon le protocole n°2 (broyage) a egalement ete quantifiee de maniere 
colorimetrique selon la technique decrite par RICHARD (1974). 

Brievement, de I'ADN a ete melange avec du HCI0 4 concentre 
(la concentration finale de HCI0 4 etait de 1,5 N). On a melange 2,5 
volumes de cette solution avec 1,5 volumes de DPA (diphenylamine, 
35 Sigma-Aldrich, France) et laisse incuber le melange a la temperature 
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ambiante pendant 18 heures, prealablement a la determination de la DO 
a 600 nn. Les extraits d'ADN du sol ont ete quantifies par rapport a une 
courbe standard realisee par I'ADN extrait a partir de E.coli DH5a selon 
les protocoles standards (SAMBROOK et al., (1989)). 

5 

1.11 DEVELOPPEMENT D'UNE TECHNIQUE DE QUANTIFICATION 
D'ADN EN UTILISANT L'AMPLIFICATION PCR ET L'HYBRIDATION: 

Pour les amplifications par PCR, de I'ADN polymerase Taq (Appligene 
Oncor, France) a ete utilise selon les instructions du fabricant. 

10 Le programme PCR utilise pour toutes les amplifications est le 

suivant: denaturation initiate pendant 3 minutes a 95°C, puis 35 cycles 
consistant en 1 minute a 95°C, 1 minute a 55°C et 1 minute a 72°C, 
suivie par une extension finale a 72°C pendant 3 minutes. 

L'ADN isole et purifie a partir de Streptosporangium fragile a ete 

15 utilise comme temoin a des concentrations allant de 100 fg a 100 ng. 

Afin d'amplifier specifiquement I'ADN de ce genre bacterien, on 
a choisi les amorces FGPS122 et FGPS350 (tableau 2), 
complementaires a une partie de I'ADNr 16S, apres alignement des 
sequences d'ADNr 16S d'actynomycetes. Leur specificite a ete testee 

20 sur une collection de souches d'actynomycetes {StreptomycGs, 
Streptosporangium et d'autres genres fortement apparentes). 

Les produits de PCR ont ete hybrides avec la sonde 
oligonucleotidique FGPS643 (tableau 2). Afin de simuler le niveau de 
purete obtenu en routine avec de I'ADN extrait a partir du sol, des 

25 temoins d'ADN pur de S. fragile ont ete melanges avec les extraits de sol 
obtenus apres des traitements selon les protocoles de lyse 4b et 5b puis 
purifies selon le protocole D. 

Avant utilisation, les extraits de sol ont ete traites avec de la 
DNase (une unite de DNase/ml, GIBCO BRL) pendant 30 minutes a 

30 temperature ambiante. La DNase a ensuite ete inactivee par chauffage a 
65°C pendant 10 minutes. Une verification de reactivation a ete realisee 
par PCR. Les concentrations d'acides humiques ont ete mesurees par 
spectrophotometrie (D028onm) contre une courbe standard d'acides 
humiques commerciaux (Sigma). 
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Des solutions de sol traitees a la Dnase non dilutes, diluees 
10x et diluees x 100 ont ete melangees de 100. fg a 100ng d'ADN de S. 
fragile avant I'amplification par PCR. Dans une autre serie 
d'experiences, les concentrations croissantes d'ADN de Streptomyces 
5 hygroscopicus de (100 pg a 1 ug) ont ete ajoutees a I'ADN de S. fragile 
afin de simuler la presence d'ADN non-cible et son influence sur le 
precede PCR. 

1.12 PURIFICATION DES EXTRAITS D'ADN BRUT: Quatre methodes 
io de purification d'ADN ont ete comparees. L'ADN a ete extrait a partir de 
1g (poids sec de sol selon le protocole 4a et remis en suspension dans 
100 pi de tampon TE8 (50 mM Tris, 20 mM (EDTA, pH 8,0). 

Protocole A 

15 

Elution a travers deux colonnes successives Elutip d 
(SCHLEICHER et SCHUELL, Dassel, Allemagne) (PICARD et al., 
(1992)). 

20 Protocole B: 

Elution a travers une colonne SEPHACRYL S200 (Pharmacia 
Biotech, Uppsala, Suede) suivie d'une elution a travers une colonne 
Elutip d (NESME et al. (1995)). 

25 

Protocole C: 

Separation a ('aide d'un systeme aqueux a deux phases avec 
17,9% (poids/poids) de PEG 8000 (Merck, Darmstadt, Allemagne) et 
30 14,3% (poids/poids) de (NH 4 )2S0 4 (ZASLAVSKY,(1995)). 

Apres un melange vigoureux au vortex, les deux phases ont ete 
laissees a temperature ambiante pour leur separation. 

1 ml de chacune des phases a et6 transfere dans un autre 
tube, melange avec 100ul de I'echantillon et laisse a 4°C pendant une 
35 nuit pour permettre la separation. 
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La phase inferieure a ete dialysee pendant une heure a travers 
une membrane Millipore en presence d'un exces d'un tampon TE 7,5 (10 
mM Tris, 1 mM EDTA a pH 7,5 et 1 M Mg Cl 2 ) afin d'eliminer les sels en 
exces. 

5 

Protocole D: 

Elution a travers une colonne de type Microspin Sephacryl 
S400 HR (Pharmacia Biotech, Uppsala, Suede) , suivie d'une elution a 
10 travers une colonne de type Elutip d. 

Chaque protocole est termine par une etape de precipitation a 
I'ethanol, et I'ADN est remis en suspension dans 10 pi de tampon TE 
7,5. L'efficacite des protocoles de purification a ete verifiee par 
amplification PCR de fractions aliquotes non diluees des solutions d'ADN 
is et de fractions aliquotes diluees 10 et x 100 fois, en utilisant des 
protocoles standard (voir ci-dessous). 

1.13 RECUPERATION DE L'ADN A PARTIR DE MICROORGANISMES 
INNOCULES: 

20 Les cellules, spores et hyphae ont ete lavees deux fois et denombrees 
par comptage sur plaque ou comptage microscopique direct. Des lots de 
5g de sol sec et tamise (sols n°2, 3 et 5) ont ete inocules avec 100 pi 
d'une suspension de spores et d'hyphae de S. lividans a des 
concentrations correspondent a 0,10 3 , 10 5 , 10 7 et 10 9 spores/g de poids 

25 sec de sol, ou avec des cellules vegetatives de B.anthracis a des 
concentrations correspondant a 0.10 7 et 10 9 cellules par gramme de 
poids sec du sol. 

Les quantites de hyphae de S. lividans ont ete calculees sur la 
base du nombre de spores desquelles elles sont originaires. Apres 

30 addition des suspensions bacteriennes, les echantillons de sol sont 
melanges vigoureusement par vortex pendant 5 minutes avant broyage. 
L'ADN est extrait selon le protocole n°6 (voir ci-dessous). 

L'amplification PCR suivie d'une hybridation sur tache (Dot Blot) 
et imagerie par phosphorescence (phospho-imaging) a ete utilisee afin 
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de quantifier les quantites d'ADN recuperees a partir des cellules, des 
spores et du mycelium bacterien inocule dans les sols. 

L'extraction d'ADN a ete realisee selon le protocole de lyse n°6. 
^amplification PCR et I'hybridation ont ete realisees comme decrit ci- 
5 dessus. Les amorces et les sondes sont ciblees sur des regions 
chromosomiques localisees en dehors de la region 16S, et sont 
hautement specifiques des organismes respectifs, de maniere a eviter 
des signaux de bruit de fond. 

Pour les sols ensemences avec B. anthracis, les amorces R499 
10 et R500 ont ete utilisees (Patra et al. (1996)) et les produits 
d'amplification ont ete hybrides avec la sonde oligonucleotidique C501 
(tableau 2). 

Pour les sols ensemences avec S. lividans , les reactions PCR 
ont ete realisees en utilisant les amorces FGPS516 et FGPS517, et les 
15 produits d'amplification ont ete hybrides avec la sonde oligonucleotidique 
FGPS518 (tableau 2). 

La region amplifiee est une partie de la cassette construite 
specifiquement pour obtenir la souche OS48.3 (CLERC-BARDIN et al., 
non publie). 

20 Les comptes de calibration ont ete dans tous les cas obtenus 

en utilisant I'ADN purifie del'organisme cible. 

2. RESULTATS 

25 2.1 CHOIX DU TAMPON D'EXTRACTION: 

20 sols differents ont ete utilises afin de determiner le pH optimal du 
tampon d'extraction d'ADN. Pour tous les sols, le rendement en ADN 
augmente avec les pH croissants du tampon. Le rendement pour chaque 
30 pH (+/- sd), calcule comme le pourcentage de la valeur la plus haute 
pour chacun des sols, est le suivant: pH 6,0 : 31 +/- 13; pH 7,0: 43 +/- 
16; pH 8,0: 60 +/- 14; pH 9,0: 82 +/- 12; pH 10,0: 98 +/- 3. 

Pour 16 des 20 sols, le rendement le plus eleve a ete obtenu a 
35 pH 10,0, alors que pour les quatre autres sols le plus haut rendement a 
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ete obtenu a pH 9,0. Cependant, a pH 10,0, des quantites plus grandes 
de materiel humique ont ete liberees, comparees a pH 9,0 (resultats non 
presentes). En consequence, le pH 9,0 a ete choisi pour toutes les 
experiences presentees ci-dessous. 

5 

2.2 EFFICACITE DES PROTOCOLES D'EXTRACTION D'ADN: 

L'ADN total des organismes indigenes du sol a ete extrait et quantifie de 
maniere a evaluer I'efficacite de nombreux protocoles de lyse cellulaire 
10 in situ. Des echantillons des sols 1-6 (tableau 1) ont ete traites selon les 
protocoles n°1 a 5 decrits dans la section Materiel et Methodes (figure 
D- 

Apres I'extraction dADN, les suspensions de sols ont ete 
precipitees avec de I'isopropanol, et des fractions aliquotes des culots 
is remis en suspension ont 6te analysees par electrophorese sur gel , dans 
une premiere etape, afin d'estimer la qualite et la quantite de I'ADN 
libere. 

Cependant, la couleur de I'extrait dADN devenait de plus en 
plus sombre au fur et a mesure du nombre croissant d'etapes de lyse, 
20 du fait de la co-extraction de composes, tels que les acides humiques, 
avec IADN. 

Certains de ces extraits bruts de couleur sombre ne migrent 
pas de la maniere attendue dans les gels d'agarose. 

En consequence, les solutions dADN brut ont ete purifiees 
25 (protocole B) avant quantification. Les electrophoreses sur gel des 
solutions purifiees obtenues apres les differents traitements de lyse sont 
exemplifies sur le sol n°3 (figure 2). 

Une comparaison visuelle au rayonnement ultra-violet des 
intensites de I'ADN colore a permis une estimation semi-quantitative de 
30 I'efficacite des traitements. De plus, la presence de profils de migration 
de tailles multiples de fragments (bandes discretes) d'ADN et la 
disparition des fragments longs indique qu'une degradation de I'ADN a 
eu lieu. 

Aucun ADN n'a pu etre extrait du sol argileux n°5. 
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Une quantification plus precise de I'ADN de tous les sols, extrait 
selon les protocoles n°1 a 5, a ete realisee par hybridation sur tache (Dot 
Blot) sans etape d'amplification PCR pr6alable et en utilisant une sonde 
oligonucleotidique complementaire d'une sequence hautement 
5 conservee de la region d'ADNr 16S (sonde FGPS 431 , tableau 2). 

L'ADN a ete detecte dans les extraits de tous les sols apres 
chacune des differentes etapes de lyse, a I'exception du sol argileux n°5. 

Les resultats concordent avec les estimations realisees apres 
gel d'electrophorese. 
10 Afin de comparer avec une methode independante pour la 

quantification, I'ADN extrait selon le protocole n°2 (tous les sols sauf le 
sol n°5) a ete egalement quantifie en utilisant une methode 
colorimetrique de detection de I'ADN (RICHARD, 1974). 

On a trouve une bonne correlation (r = 0,88) entre I'ADN 
15 quantifie en utilisant cette technique colorimetrique et les resultats 
obtenus par hybridation de type Dot Blot/radio-imagerie, confirmant 
I'hypothese selon laquelle le nombre de copies moyen des bacteries du 
sol (rrn) est de 7. 

L'hybridation (Dot Blot) a montre que les quantites d'ADN 
20 extracellulaires, comme determine par extraction sans traitement de lyse 
(protocole n°1), allait de 4ug/g pour le sol acide (n°6) a 36 pg/g pour le 
sol n°3 (tableau 3). 

Le broyage du sol (protocole n°2 ) a augmente les quantites 
d'ADN extrait a partir de tous les sols (p.ex. 26 pg/g de sol) pour le sol 
25 n°6 et 59 pg/g de sol (pour le sol n°3) (tableau 3; figure 2). 

Pour les deux traitements de broyage (voir la section Materiel et 
Methodes) la migration discrete d'ADN a ete detectee sur les gels 
d'agarose, indiquant que les molecules d'ADN ont ete partiellement 
degradees (figure 2). 
30 La taille des fragments d'ADN est comprise entre 20 et 0,2 kb. 

L'intensite de bande des fragments les plus petits est tres faible, 
indiquant que la majeure partie des fragments ont une taille bien 
superieure a 1 kb. 

Le protocole n°3 comprend une etape d'homogeneisation dans 
35 un dispositif mixeur de type Ultraturax apres I'addition du tampon 
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d'extraction aux echantillons de sol. Cette etape conduit a une 
augmentation des quantites d'ADN extrait, comme determine par 
hybridation sur tache (Dot Blot) pour deux des sols (le terreau 
sablonneux n°3 et le sol acide n°6), alors que les deux sols riches en 
5 matiere organique (sols n°1 et n°2) ont conduit a I'obtention de quantites 
plus faibles d'ADN. 

Les protocoles n°4a et n°4b ont permis d'evaluer I'influence de 
deux types de sonication sur les rendements en ADN a partir de sols 
prealablement broyes et homogeneises . 

10 La sonication n'a pas eu d'effet positif sur le rendement en 

ADN, compare au protocole n 0 3, excepte pour le sol n°6. Toutefois, 
I'efficacite de lyse des deux types de sonicateur different. Pour les sols 
n°2, 3 et 4, les quantites d'ADN extraits les plus grandes ont ete 
obtenues en utilisant la micropointe de titane (tableau 3; figure 2), alors 

15 que pour les sols n°1 et n°6, le rendement en ADN etait superieur en 
utilisant le dispositif Cup Horn. 

Des resultats contradictoires ont ete egalement obtenus lorsque 
Ton a ajoute une etape de lyse enzymatique/chimique (protocoles n°5a 
et 5b) apres I'etape de sonication: dans certains cas, les quantites 

20 d'ADN extraites ont ete plus grandes que celles recuperees selon les 
protocoles n°4a et 4b, alors que dans d'autres cas les rendements 
etaient moindres (tableau 3). 

2.3 COMPTAGE DIRECT DES MICRO-ORGANISMES: 

25 

Des comptes au microscope du nombre total de cellules bacteriennes 
apres coloration a I'acridine orange ont ete realises pour tous les sols, 
avant et apres broyage. 

Avant broyage, le nombre de bacteries par gramme de poids 
30 sec du sol allait de 1,4 x 10 9 (+/- 0,4) dans le sol tropical n°5 a 10 x 10 9 
(+/- 0,7) dans le sol provenant de la Cote Saint-Andre (sol n°3) (tableau 
1). 

Apres broyage, les nombres de cellules ont ete respectivement 
de 45, 74, 75, 54, 34 et 75% des valeurs initiates pour les sols n°1 a 6. 

35 
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2.4 NUMERATION DES ACTINOMYCETES CULTIVABLES 
APPARTENANT A DIFFERENTS GENRES: 

Une modification dans les populations d'actinomycetes dans le sol n°3 a 
5 ete remarquee apres les differents traitements de lyse (figure 3). 

Par exemple, les colonies de Streptomyces sp. dominaient la 
flore viable d'actinomycetes lorsqu'aucun traitement de lyse n'est 
applique (protocole n°1), et representaient 65% du nombre total de 
colonies identifiees. Apres broyage, le pourcentage de colonies de 
10 Streptomyces a diminue pour atteindre 51%, alors que la proportion de 
colonies appartenant au genre Micromonospora a augments de 14% a 
41%. 

La lyse chimique/enzymatique (protocoles 5a et 5b) est 
apparue comme particulierement efficace pour la lyse des 

15 streptomycetes. Lorsque tous les traitements de lyse ont ete appliques, y 
compris une lyse chimique/enzymatique (protocoles 5a et 5b), la 
microflora d'actinomycetes, qui comprenait encore plus de 10 6 CFU/g de 
sol, etait dominee par les especes appartenant au genre 
Micromonospora, alors qu'aucune ou tres peu de colonies de 

20 Streptomyces ont ete recuperees. 

Les organismes appartenant aux genres tels que 
Streptosporangium, Actinomadura, Microbispora, Dactilosporangium et 
Actinoplanes sont apparus sur les plaques en faible nombre (2-8% du 
nombre total de colonies identifiees) apres broyage, homogeneisation 

25 avec le dispositif Ultraturrax, et sonication, mais etaient generalement 
absents lorsque ces traitements etaient combines avec une lyse 
chimique/enzymatique. 

Le nombre total de bacteries cultivates restant apres chaque 
traitement de lyse (protocoles 2 a 5) a ete aussi recherche pour le sol 

30 n°4. Les resultats indiquent que le nombre de bacteries cultivates ne 
decroTt pas avec Nntensite des traitements de lyse (environ 2 x 10 6 
CFU/g de sol dans tous les cas, et egalement lorsqu'un traitement n'est 
applique, tel que selon le protocole n°1). 

L'obtention de ces faibles valeurs de CFU est probablement 

35 due au fait que du sol sec a ete utilise et que seules les bacteries les 
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plus resistantes se sont multiplies sur les plaques. Le nombre 
d'actinomycetes formant colonies etait generalement plus grand que 
celui des CFU total (toutes les bacteries) du fait qu'une etape de 
germination de spores, comprise dans le protocole de detection des 
5 actynomycetes, manquait lors du controle des bacteries totales. 

2.5 RECUPERATION DE L'ADN DU PHAGE LAMBDA AJOUTE: 

Le but de ces experiences etait d'estimer de quelle maniere des 
10 traitements de lyse successifs pouvaient affecter la recuperation d'ADN 
nu , et si ces traitements successifs de lyse contribuaient a sa 
degradation. 

L'ADN pouvait etre soit une fraction d'ADN extracellulaire 
liberee a partir d'organismes deja morts, qui peuvent persister dans le 

15 sol pendant des mois (WARD et al., 1990), soit de I'ADN libere a partir 
d'organismes lyses facilement pendant les premieres etapes du 
traitement. Afin de simuler cette situation, de I'ADN de phage lambda 
digere par Hindlll a ete ajoute, a diverses concentrations, aux sols avant 
et apres broyage. En plus du broyage, une combinaison des autres 

20 traitements de lyse a ete testee, y compris la sonication (dispositif Cup 
Horn, voir protocole n°4b) et des chocs thermiques (voir la section 
Materiel et Methodes). 

Apres extraction, des fractions aliquotes qui devraient 
theoriquement contenir de 25 a 150 ng d'ADN de phage lambda ont ete 

25 analysees par electrophorese sur gel. Aucun fragment d'ADN specifique 
du phage lambda n'a pu etre observe lorsque I'ADN a ete inocule dans 
les echantillons de sol prealablement au broyage, independamment de 
la dose ou du type de sol. 

Lorsque I'ADN a ete ajoute apres broyage, et extrait sans etape 

30 de traitement de lyse additionnelle, les profils specifiques d'ADN de 
phage lambda ont ete detectes dans les extraits de quatre des cinq sols 
testes. 

Dans tous ces cas, une relation directe de cause a effet a ete 
obtenue entre la quantite d'ADN ajoutee et I'intensite des signaux sur les 
35 gels d'agarose. Les intensites des signaux etaient, cependant, 
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inferieures aux intensity de signaux attendues si on les compare a 
celles des standards moleculaires. 

De plus, la bande a 23 kb etait absente dans plusieurs cas, 
indiquant que les longs fragments etaient preferentiellement adsorbes 
5 aux particules du sol, ou etaient plus sensibles a la degradation, 
compares aux fragments courts. 

Aucune bande n*a ete detectee dans les echantillons de sol 
tropical n°5 qui est caract6rise par une tres haute teneur en argile 
(tableau 1). 

io Pour une quantification plus precise, la recuperation d'ADN a 

ete determinee sur un dispositif d'imagerie par phosphorescence 
(phospho-imager) apres hybridation en tache (Dot Blot). Selon cette 
technique, I'ADN a ete detecte dans tous les echantillons, y compris 
ceux qui avaient ete inocules avant broyage, a I'exception du sol n°5 

15 dans lequel aucun ADN n'a pu etre detecte. 

Dans tous les autres sols, la quantite d'ADN extrait augmente 
avec I'augmentation de taille de I'inoculum (figures 4a-d). 

Cependant, les recuperations d'ADN de phage lambda etaient 
faibles. Lorsque le broyage etait le seul traitement de lyse applique, les 

20 recuperations etaient comprises entre 0,6 et 5,9% de I'ADN ajoute 
lorsque celui-ci etait ajoute avant broyage, et de 3,6 a 24% de I'ADN 
ajoute lorsque ce dernier etait ajoute apres broyage. Les plus hauts 
niveaux de recuperation ont ete obtenus a partir du sol n°2. 

L'electrophorese sur gel de fractions aliquotes d'echantillons 

25 traites par choc thermique et sonication n'a permis d'observer des 
bandes d'ADN dans aucun des echantillons, y compris I'essai dans 
lequel I'ADN avait ete ajoute apres broyage. Les experiences 
d'hybridation en tache (Dot Blot) ont confirme ces resultats. 

Les signaux d'hybridation obtenus a partir de suspensions de 

30 sol qui ont ete traitees par chocs thermiques et sonication ont ete, tout 
au plus, faibles. 

L'6chantillon presentant la plus forte quantite d'ADN (15 ug 
d'ADN/g de poids sec du sol) etait le seul pour lequel le signal obtenu 
etait sensiblement different du niveau du bruit de fond. 
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Aucune difference^ ou de faibles differences) n'a ete observee 
entre les echantillons traites par choc thermique et ceux traites par chocs 
thermiques et sonication, indiquant que les chocs thermiques ont un 
effet prejudiciable sur I'ADN. Les recuperations les meilleures ont ete 
5 observees pour le sol n°2, qui a la plus forte teneur en matiere organique 
(tableau 1), alors qu'aucun ADN n'a ete recupere a partir du sol argileux 
n°5 ; 

Des experiences additionnelles ont ete realisees avec des 
echantillons non broyes de sols n°4 et n°5, qui ont ete ensemences avec 
10 20 et 50 ug d'ADN de phage lambda par gramme de sol. 

Les echantillons ont ete extraits immediatement ou apres une 
periode d'incubation d'une heure a 28°C, puis les extraits d'ADN ont ete 
purifies et analyses par electrophorese sur gel. 

L'incubation du sol n°4 pendant une heure apres ('inoculation 
is n'a pas conduit a des profits qualitativement ou quantitativement 
differents de ceux obtenus sans incubation ou de ceux observes 
anterieurement lorsque I'ADN avait ajoute apres broyage. 

Ces resultats indiquent que la degradation enzymatique par les 
nucleases du sol ne seraient pas impliquee dans le faible taux de 
20 recuperation d'ADN. De plus, I'absence d'etape de broyage ne permet 
pas une augmentation de la recuperation de I'ADN a partir du sol n°5, 
indiquant que les modifications de structure du sol dues au broyage 
n'augmentent pas significativement I'adsorption des acides nucleiques 
sur les collotdes. 

25 

2.6 SATURATION DES SITES D'ADSORPTION AVEC L'ARN: 

La plupart des profils obtenus sur les gels d'agarose ne different pas 
significativement des profils precedents dans lesquels le traitement 
30 d'ARN n'a pas ete effectue. 

Par exemple, aucune bande n'a ete detectee a partir du sol 
riche en argile n°5, independamment des concentrations d'ARN et des 
concentrations d'ADN de phage lambda utilisees. 
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De plus, les bandes specifiques d'ADN de phage lambda 
digerees par Hindlll restaient indetectables dans le terreau sablonneux 
traite par I'ARN (sol n°4) lorsque I'ARN est ajoute avant le broyage. 

L'intensite des bandes obtenues a partir d'echantillons 
5 ensemences avec I'ADN apres broyage augmente avec la concentration 
d'ARN, indiquant que le traitement pourrait avoir un effet positif. 

Cependant, les resultats apres hybridation et analyse par 
imagerie a phosphorescence n'ont pas confirme les resultats de 
I'electrophorese. Par exemple, I'effet positif du traitement d'ARN sur la 
10 recuperation d'ADN a partir du terreau argileux, lorsque I'ADN a ete 
ajoute apres broyage, n'apparait pas clairement. 

D'un autre cdte, un effet positif de I'ARN a ete trouve pour le sol 
riche en argile (n°5) lorsque I'ADN a ete ajoute apres broyage. 

Bien que les signaux d'hybridation pour les echantillons 
15 contrdle ne different pas des niveaux de bruit de fond, des quantites 
significatives d'ADN ont ete liberees a partir des echantillons traites par 
I'ARN, et les signaux ont augmente avec la quantite d'ADN ajoutee ainsi 
qu'avec la concentration d'ARN. 

Cependant, meme pour la plus forte concentration d'ARN (100 
20 mg/g de poids de sol sec) le taux de recuperation n'a jamais depasse 
3%. 

2.7 PURIFICATION DES EXTRAITS BRUTS D'ADN: 

25 Des quatre protocoles testes, la meilleure amplification des extraits 
d'ADN non dilues (1 pi d'extrait dans 50 pi de melange PCR) a ete 
observee apres I'elution a travers des colonnes de type Microspin S400 
suivie d'une elution a travers une colonne de type Elutip d, comme le 
montre I'electrophorese sur gel des produits PCR. 

30 L'ADN purifie par le systeme aqueux double phase (protocole 

C) a donne des quantites plus faibles de produits PCR apres 
amplification a partir d'extrait d'ADN non dilue. 

Aucun produit d 'amplification n'a pu etre obtenu a partir des 
extraits non dilues apres amplification a la suite de la mise en oeuvre 

35 des protocoles A ou B. En consequence, le protocole B (voir section 
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Materiels et Methodes) a ete utilise pour toutes les experiences dans 
lesquelles les amplifications PCR et/ou les hybridations sur tache (Dot 
Blot) ont ete realisees. 

5 2.8 QUANTIFICATION PAR PCR ET HYBRIDATION: 

La premiere etape etait de determiner si les quantites de produit PCR 
etaient proportionnelles au nombre de molecules d'ADN cibles 
initialement presentes dans le tube reactionnel. De I'ADN de 

10 Streptosporangium fragile a ete utilise comme cible (voir section 
Materiels et Methodes). 

Les amorces utilisees ont ete les amorces FGPS122 et 
FGPS350 (tableau 2). L'electrophorese sur gel des produits PCR a 
montre que I'intensite de bande augmente avec I'accroissement de la 

15 concentration des cibles. Les produits PCR ont ete hybrides avec la 
sonde oligonucleotidique FGPS643 (tableau 2), et les signaux ont ete 
quantifies par imagerie par phosphorescence (phospho-imaging). 

On a trouve une bonne correlation (1*= 0,98) entre le 
logfnombre de cibles] et le log[intensit6 du signal d'hybridation]. 

20 On a ensuite recherche si I'efficacite de 1'amplification PCR etait 

affectee par les acides humiques et I'ADN non cible. Lorsqu'on I'analyse 
par electrophorese sur gel, I'intensite accrue des bandes des produits 
PCR, correspondant aux differentes quantites d'ADN cible, etait 
conservee lorsque ('amplification etait realisee avec des solutions d'ADN 

25 auxquelles on avait ajoute des extraits de sol traites a la DNase, 
contenant des acides humides a des concentrations allant jusqu'a 8ng 
dans le melange PCR d'un volume de 50 pi. 

Avec 20 ng d'acide humique dans le melange PCR, les bandes 
correspondant aux faibles niveaux d'ADN cible ont disparu, et a des 

30 concentrations d'acide humique de 80 ng et a des concentrations 
superieures, aucune bande n'etait visible . 

Les quantites variees d'ADN cible de S.fragile ont permis de 
fournir les quantites attendues de produit PCR lorsque, avant 
amplification, I'ADN de S. fragile a ete melange avec de I'ADN de 

35 Streptomyces hygroscopicus et ajoute au melange PCR de 50 pi dans 
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une gamme de 100 pg a 1ug afin de simuler I'ADN non-cible libere a 
partir de la microflore du sol. 

2.9 QUANTIFICATION DES ACTINOMYCETES INDIGENE DU SOL 
5 APRES DIFFERENTS TRAITEMENTS DE LYSE: 

On a applique le protocole de purification D suivi d'une amplification par 
PCR comme decrit ci-dessus afin de quantifier les actinomycetes 
appartenant au genre Streptosporangium dans le sol n°3 apres 
10 extraction conformement aux protocoles n°1 , 2, 3, 5a et 5b (figure 5). 

Apres broyage, (protocole n°2) la quantite d'ADN cible 
provenant de cet actinomycete a ete estimee par hybridation (Dot Blot) 
et radio-imagerie comme etant de 2,5 +/- 1 ,3 ng /g de poids de sol sec. 

Si I'on postule que le contenu en ADN est de 10 fg par cellule, 
15 comme pour Streptomyces (Gladek et al. 1 984), cette valeur correspond 
a approximativement 2,5 x 10 5 genomes. Des valeurs similaires ont ete 
obtenues apres les autres traitements de lyse (respectivement 2,6 +/-1.1 
et 1,8 +/- 1,3 ng d'ADN/g de sol sec en utilisant respectivement les 
protocoles 3 et 4b). 

20 

2.10 EFFICACITE DE LA RECUPARATION D'ADN A PARTIR DE 
SOLS PREALABLEMENT INOCULES AVEC DES BACTERIES: 

Trois sols (n°2, 3 et 5) ont ete inocules avec des spores ou des hyphae 
25 de Streptomyces lividans a differentes concentrations (voir section 
Materiel et Methodes). Les quantites de mycelium ajoutees au sol (figure 
6b) correspondent au nombre de spores inoculees dans le milieu de 
germination. Approximativement 50% de ces spores ont germe. Le 
nombre exact de cellules dans les hyphae des spores germinees n'a pas 
30 ete determine. En consequence, les quantites de spores et de mycelium 
ensemencees dans les sols ne sont pas directement comparables. 

Pour chaque echantillon de sol, le protocole d'extraction n°6, la 
methode de purification D, et I'amplification PCR combinee avec 
I'hybridation sur tache (Dot Blot) et I'imagerie par phosphorescence 
35 (phospho-imaging) ont ete utilises pour denombrer les ADNs cibles 
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specifiques qui avaient ete liberes. L'ADN extrait peut etre clairement 
distingue du bruit de fond seulement lorsque le nombre de spores 
ajoutees depasse 10 5 pour les sols n°3 et n°5 et 10 7 pour le sol n°2 
(figure 6a). 

5 Lorsque le mycelium est ajoute, I'ADN extrait peut etre detecte 

au-dela d'une quantite correspondant a 10 3 spores/g de sol pour les sols 
n°2 et n°3, et au-dela de 10 7 spores/g pour le sol n°5 (figure b). 

Au-dessus du niveau de detection, le signal d'hybridation 
augmente avec des quantites croissantes des cellules inoculees. 

io Pour I'inoculum de spores, une augmentation de 100 fois dans 

le nombre de cellules ensemencees conduit a une augmentation de 
presque 100 du rendement d'ADN. Cette augmentation est clairement 
inferieure lorsque les hyphae sont inoculees, particulierement dans les 
sols n°2 et n°3 (figure 6). 

15 Au contraire, les resultats obtenus lorsque IADN de phage 

lambda a ete utilise comme inoculum, I'ADN a egalement ete recupere a 
partir du sol riche en argile (n°5) lorsque les cellules bacteriennes ont ete 
utilisees comme inoculum. Cependant, pour ce dernier aussi, le 
traitement par I'ARN a augmente la recuperation d'ADN de 
20 Streptomyces a partir de ce sol a la fois pour les spores et le mycelium 
(figure 6). 

Le fait d'ensemencer des sols avec des cellules vegetatives de 
Bacillus anthracis a foumi des taux de recuperation similaires a ceux 
obtenus pour Streptomyces. 
25 De plus, les taux de recuperation d'ADN a partir du sol n°5 ont 

augmente apres traitement par I'ARN egalement pour cet inoculum. 

Exemple 2 : Construction d'une banque d'ADN de faible poids 
moleculaire (<10 kb) a partir d'un sol contamine par du lindane : 
30 clonage et expression du gene linA 

Cet exemple decrit la construction d'une librairie d'ADN du sol dans 
E. coli. II permet de demontrer le clonage et I'expression de genes de 
petite taille issus d'une microflora non cultivable . 

35 



WO 01/40497 



86 



PCT/FR00/03311 



Le lindane est un pesticide organochlore, recalcitrant a la 
degradation et persistant dans I'environnement. En aerobie, sa 
biodegradation est catalysee par une dehydrochlorinase, codee par le 
gene linA, permettant de transformer le lindane en 1,2,4- 
5 trichlorobenzene. Le gene linA n'a ete identifie que parmi deux souches 
isolees du sol : Sphingomonas paucimobilis, isole au Japon (Seeno et 
Wada 1989, Imai et al 1991, Nagata et at 1993) et Rhodanobacter 
lindaniclasticus isole en France (Thomas et al 1996, Nalin et al 1999). 
Pourtant le potentiel de degradation du lindane, mis en evidence 
10 par dosage des ions chlorures liberes et amplification par PCR du gene 
linA a partir de sols ayant ete en contact ou non avec du lindane, semble 
etre repandu plus largement dans I'environnement (Biesiekierska- 
Galguen, 1997). 

15 1. Extraction directe d'ADN de sol 

Les sols sees sont broye pendant 10 minutes dans un broyeur a 
force centrifuge Restch equipe 6 billes de tungstene. 10 grammes de sol 
broye sont mis en suspension dans 50 ml de tampon TENP pH 9 (Tris 

20 50 mM, EDTA 20 mM, NaC1 100 mM, polyvinylpolypirrolidone 1% w/v), et 
homogeneises au vortex pendant 10 min. 

Apres centrifugation de 5 minutes, 4000 g a 4°C, le surnageant 
est precipite a I'acetate de sodium (3M, pH 5.2) et a I'isopropanol, pour 
etre repris dans du tampon TE sterile (Tris 10 mM, EDTA 1 mM, pH 8.0). 

25 L'ADN extrait est ensuite purifie sur colonne de tamisage moleculaire 
S400 (Pharmacia) et sur colonne echangeuse d'ions Elutip d (Schleicher 
et Schuell), selon les instructions des fabricants, puis conserve dans du 
TE. 

2. Construction de la banque d'ADN extrait du sol dans le 
30 vecteur pBluescript SK- 

Le vecteur pBluescript SK- et IADN extrait du sol sont chacuns 
digeres par les enzymes HindWl et BamHI (Roche), a raison de 10 unites 
d'enzymes pour 1 ug d'ADN (incubation 2 heures a 37°C). Les ADN sont 
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ensuite ligues par action de la T4 DNA ligase (Roche), une nuit a 15°C, a 
raison d'une unite d'enzyme pour 300 ng d'ADN (environ 200 ng d'ADN 
insert et 100 ng de vecteur digere). Les cellules d' Escherichia coli 
electrocompetentes, ElectroMAX DH10B ™ (Gibco BRL) sont 
5 transformees par le melange de ligation (2 pi) par electroporation (25 uF, 
200 et 500 Q, 2,5 kV) (Biorad Gene Pulser). 

Apres une heure d'incubation dans le milieu LB, les cellules 
transformees sont diluees de facon a obtenir environ 100 colonies par 

10 boTte puis sont etalees sur milieu LB (10 g/1 Tryptone, 5 g/l extrait de 
levure, 5 g/ NaCI) additionne d'Ampiciline (100 mg/l), de y-HCH (500 
mg/l), de X-gal 60 mg/l (5-bromo-4-chloro-3-indolyl-a-D-galactoside), et 
d'IPTG 40 mg/l (isopropylthio-p-D-galactoside), et incubees une nuit a 
37°C. Le y-hexachlorocyclohexane (Merck-Schuchardt) etant insoluble 

15 dans I'eau, une solution a 50 g/l est preparee dans du DMSO (dimethyl 
sulfoxyde) (Sigma). 

Une banque de 10 000 clones a ainsi ete obtenue. 

3.Clonaqe et expression du gene linA 

Le criblage de la banque s'effectue par visualisation d'un halo de 
degradation du lindane autour de la colonie (le lindane precipitant dans 
les milieux de culture). Sur 10 000 clones cribles, 35 presentaient ainsi 
une activite de degradation du lindane. La presence du gene linA chez 

25 ces clones a pu etre confirmee par PCR grace a des amorces 
specifiques. decrites par Thomas et al (1996). Des digestions realisees 
sur les inserts ainsi que sur les produits d'amplification ont montre des 
profils identiques entre tous les clones cribles et le temoin de reference, 
R. lindaniclasticus. Les clones portant le gene linA presentaient 

30 egalement un insert de meme taille (environ 4 kb). 

II ainsi pu etre demontre que I'ADN du sol pouvait etre clone et 
exprime chez un h6te heterologue : E. coli, et que des genes issus d'une 
microflore difficilement cultivable pouvaient §tre exprimes. Des banques 
35 realisees a partir de digestion partielle d'ADN extrait du sol par des 
enzymes de restriction telles que Sau3AI sont done aussi envisageables. 
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EXEMPLE 3; 

Precede de preparation d'une collection d'acides nucleiaues a 
partir d'un echantillon de sol, comorenant une 6 tape d'extraction 
5 indirecte de I'ADN. 

1. MATERIEL ET METHODES . 

1.1 Extraction de la fraction bacterienne du sol. 

10 

5g de sol sont disperses dans 50 ml de NaCI 0.8% sterile, par 
broyage au Waring Blender pendant 3 x 1 minute, avec refroidissement 
dans la glace entre chaque broyage. les cellules bacteriennes sont alors 
separees des particules du sol par centrifugation sur un coussin de 

15 densite de Nycodenz (Nycomed Pharma AS, Oslo, Norvege). Dans un 
tube a centrifugation, 11,6 ml d'une solution de Nycodenz de densite de 
1.3 g.ml" 1 (8g de Nycodenz suspendu dans 10 ml d'eau sterile) sont 
places en dessous de 25 ml de la suspension de sol precedemment 
obtenue. Apres centrifugation a 10.000 g dans un rotor a godets mobiles 

20 (rotor TST 28.38, Kontron) pendant 40 minutes a 4°C, I'anneau 
cellulaire, se situant a I'interphase de la phase aqueuse et de la phase 
Nycodenz, est preleve, lave dans 25 ml d'eau sterile et centrifuge a 
10.000 g pendant 20 minutes. Le culot cellulaire est ensuite repris dans 
une solution Tris 10 mM; EDTA 100 mMn pH 8.O. 

25 Prealablement a la dispersion du sol au Waring Blender, une 

etape d'enrichissement du sol dans une solution d'extrait de levure peut 
§tre incluse afin de permettre notamment la germination des spores 
bacteriennes du sol. 5 g de sol sont alors incubes dans 50 ml d'une 
solution sterile de NaCI 0.8% - extrait de levure 6%, pendant 30 minutes 

30 a 40°C. L'extrait de levure est elimine par centrifugation a 5000 rpm 
pendant 10 minutes afin d'eviter la formation de mousse durant le 
broyage, 

1.2 Use des cellules bacteriennes du sol. 

35 
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- Lyse des cellules en milieu liquide et purification sur gradient 
de chlorure de cesium. 

Les cellules sont lysees dans une solution Tris 10 mM, EDTA 
100 mM, pH 8.0 contenant 5 mg.ml* 1 de lysozyme et 0.5 mg.ml' 1 
5 d'achromopeptidase pendant 1 heure a 37°C . Une solution de lauryl 
sarcosyl (1% final) et de proteinase K (2 mg.ml" 1 ) est ensuite ajoutee et 
incubee a 37°C pendant 30 minutes. La solution d'ADN est alors purifiee 
sur un gradient de densite de chlorure de cesium par centrifugation a 35 
000 rpm pendant 36 heures sur un rotor Kontron 65.13. Le gradient de 
10 chlorure de cesium employe est un gradient a 1g/ml de CsCI, possedant 
un indice de refraction de 1 ,3860 (Sambrook et al., 1 989). 

- Lyse des cellules ap/es inclusion dans un bloc d'agarose. 
Les cellules sont melangees a un volume egal d'agarose a 

1.5% (poids/volume) Seaplaque (Agarose Seaplaque FMC Products. 

15 TEBU, Le Perray en Yvelines, France), a bas point de fusion et coulees 
dans un bloc de 100 pi. Les blocs sont ensuite incubes dans une 
solution de lyse : EDTA 250 mM, saccharose 10.3%, lysozyme 5 mg.ml" 1 
et achromopeptidase 0.5 mg.ml' 1 a 37°C pendant 3 heures. Les blocs 
sont alors laves dans une solution de Tris 10 mM - EDTA 500 mM et 

20 incubes une nuit a 37°C dans de I'EDTA 500 mM contenant 1 mg.ml" 1 de 
proteinase K et du lauryl sarcosyl 1%. Apres plusieurs lavages dans du 
Tris-EDTA, les blocs sont conserves dans de I'EDTA 500 mM. 

La qualite des ADN ainsi extraits est controlee par 
electrophorese en champs pulses. 

25 La quantite d'ADN extrait a ete evaluee sur gel d'electrophorese 

par rapport a une gamme etalon d'ADN de thymus de veau. 

1.3 Caracterisation moleculaire de I'ADN extrait du sol. 

30 Les ADN extraits du sol sont caracterises par hybridation PCR, 

methode qui consiste a amplifier dans un premier temps les ADNs a 
I'aide d'amorces situees sur des regions universellement conservees du 
gene de l'ARNr16S, puis a hybrider les ADNs amplifies avec differentes 
sondes oligonucleotidiques de specificite connue (tableau 4), dans le but 
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de quantifier I'intensite du signal d'hybridation par rapport a une gamme 
etalon externe d'ADN genomique. 

Les ADN extraits du sol ainsi que les ADN genomiques extraits 
de cultures pures sont amplifies avec les amorces FGPS 612-669 
5 (tableau 1) dans les conditions standard d'amplification par PCR. Les 
produits d'amplification sont ensuite denatures par un volume egal de 
NaOH 1N, deposes sur une membrane de Nylon (GeneScreen Plus, Life 
Science Products) et hybrides avec une sonde oligonucleotidique 
marquee a son extremite par du g 32 P ATP par action de la T4 

10 polynucleotide kinase. Apres prehybridation de la membrane dans une 
solution de 20 ml contenant 6 ml de SSC 20X, 1 ml de solution de 
Denhardt, 1 ml de SDS 10% et 5 mg d'ADN heterologue de sperme de 
saumon, les hybridations sont conduites durant une nuit a la temperature 
definie par la sonde. Les membranes sont lavees deux fois dans du SSC 

15 2X pendant 5 minutes a temperature ambiante, puis une fois dans du 
SSC 2X SDS 0,1% et une seconde fois dans du SSC 1X, SDS 0,1% 
pendant 30 minutes a la temperature d'hybridation. Les signaux 
d'hybridation sont quantifies a I'aide du logiciel Molecular Analyst 
(Biorad, Ivry sur Seine, France) et les quantites d'ADN sont estimees par 

20 interpolation des courbes etalons obtenues a partir des ADN 
genomiques. 

2. RESULTATS ET DISCUSSION 

25 2.1 Extraction et Ivse de la fraction bacterienne du sol. 

La separation des cellules microbiennes des particules du sol, 
prealablement a I'extraction de I'ADN, est une alternative presentant de 
nombreux avantages par rapport aux methodes d'extraction directe de 

30 I'ADN dans le sol. En effet, I'extraction de la fraction microbienne limite 
la contamination de I'extrait d'ADN par de I'ADN extracellulaire present 
librement dans le sol ou par de I'ADN d'origine eucaryote. Mais surtout, 
I'ADN extrait de la fraction microbienne du sol presente des fragments 
de plus longue taille et une meilleure integrite que I'ADN extrait par lyse 

35 directe JACOBSON et RASMUSSEN (1992). De plus, la separation des 



WO 01/40497 



91 



PCT/FR00/03311 



particules de sol permet d'eviter une contamination de I'extrait d'ADN par 
des composes humiques et phenoliques, composes pouvant, par la 
suite, nuire gravement aux efficacites de clonage. 

Une des etapes determinates pour I'extraction des cellules du 
5 sol est la dispersion de I'echantillon de sol afin de dissocier les cellules 
adherant a la surface ou a I'interieur des agregats de particules de sol. 
Trois cycles de broyage successifs d'une minute chacun permettent 
d'obtenir une meilleure efficacite d'extraction des cellules ainsi qu'une 
plus grande quantite d'ADN recupere, par rapport a un unique cycle de 
10 broyage d'une minute 30. 

Le tableau 5 rapporte les efficacites d'extraction obtenues 
apres centrifugation sur gradient de Nycodenz , sur la microflore totale 
viable (denombree par microscopie apres coloration a I'acridine orange), 
sur la microflore totale cultivable (denombree sur milieu solide 
is Trypticase-Soja 10%), et sur la microflore d'actinomycetes cultivates 
sur milieu HV agar (apres incubation a 40°C dans une solution d'extrait 
de levure 6% -SDS 0,05% afin de provoquer la germination des sprores). 
D'autre part, I'ADN extrait a ete quantifie soit apres une lyse des cellules 
en milieu liquide (sans purification sur gradient de chlorure de cesium) 
20 soit apres une lyse des cellules incluses dans un bloc d'agarose (apres 
digestion de I'agarose par une b-agarase). 

Les resultats montrent que plus de 14% de la microflore 
tellurique totale est recupere par cette methode (soit 2 10 8 cellules par 
gramme de sol), et que la microflore totale cultivable ne represente qu'a 
25 peine 2% de la population microbienne totale. 

D'autre part, la quantite d'ADN extrait des cellules est de 330 
ng par gramme de sol sec. En estimant le contenu d'ADN par cellule 
microbienne du sol entre 1.6 et 2.4 fg, et compte tenu de la quantite de 
cellules extraites (2 10 8 cellules par gramme de sol), on peut estimer que 
30 la quasi-totalite des cellules ont ete lysees et qu'ainsi la lyse n'apporte 
pas d'important biais a cette approche. 

Les electrophoreses en champs pulses ont montre que I'ADN 
du sol extrait apres gradient de Nycodenz et de CsCI pouvait atteindre 
une taille de 150 kb et que la lyse en bloc d'agarose permettait d'extraire 
35 des fragments superieurs a 600kb. 
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Ces resultats confirment I'interet de cette approche 
independante de la culture pour la construction de banques d'ADN de 
I'environnement, en se presentant comme une alternative aux methodes 
directes d'extraction d'ADN. 

5 

2.2 Caracterisation moleculaire de I'ADN extrait du sol. 

Le but de la caracterisation moleculaire de I'ADN extrait du sol 
est d'obtenir des profits representant les proportions des differents 

10 taxons bacteriens presents dans I'extrait d'ADN. II s'agissait egalement 
de connattre les biais d'extraction induits par la separation prealable de 
la reaction cellulaire du sol, en comparaison avec une methode 
d'extraction directe faute de visualisation directe de la diversite 
microbienne presente dans les sols. En effet, peu d'informations ont ete 

15 rassemblees sur I'extraction des cellules sur gradient de Nycodenz en 
fonction de leur structure morphologique (diametre des cellules, formes 
filamenteuses ou sporulees). 

Les methodes jusqu'ici en place etaient basees sur des: 

hybridations quantitatives utilisant des sondes 

20 oligonucleotidiques specifiques a differents groupes bacteriens, 
appliques directement d'ADN extrait de I'environnement. 
Malheureusement, cette approche n'est pas tres sensible et ne permet 
pas de detecter des genres ou des groupes taxonomiques presents en 
faible abondance AMANN (1995). 

25 - PCR quantitatives telles que la MPN-PCR (Most Probable 

Number) SYKES et al. (1992) ou la PCR quantitative par competition 
DIVIACCO et al. (1993). Les inconvenients respectifs de chacune de ces 
approches sont (i) la lourdeur d'utilisation du fait de la multiplication des 
dilutions et des repetitions qui rend la technique inappropriee pour un 

30 grand nombre d'echantillons ou de couples d'amorces, et (ii) la necessite 
de construire un competiteur specifique a I'ADN cible et n'induisant pas 
de biais dans la competition. 

La methode mise en place selon la presente invention consiste 
a amplifier universellement un fragment de 700 pb a I'interieur de la 

35 sequence d'ADNr 16S, a hybrider cet amplifiat avec une sonde 
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oligonucleotidique de specificite variable (au niveau du regne, de I'ordre, 
de la sous classe ou du genre) et a comparer I'intensite d'hybridation de 
I'echantillon par rapport a une gamme etalon externe. [.'amplification 
prealable a I'hybridation permet de quantifier des genres ou des especes 
5 de micro-organismes peu abondants. De plus, ('amplification par des 
amorces universelles permet, lors de I'hybridation, d'utiliser une large 
serie de sondes oligonucleotidiques. Elle permet de comparer entre eux 
differents modes de lyse (extraction directe ou indirecte) sur des groupes 
taxonomiques bien definis. 

10 Les resultats sont rassembles dans le tableau 6. 

lis montrent des profits similaires entre les deux methodes 
d'extraction (directe et indirecte). Ainsi, il apparaTt que I'extraction 
prealable de la fraction microbienne tellurique n'introduit pas de reels 
biais parmi les taxons testes. La seule difference significative entre les 

15 deux approches d'extraction semblerait etre la plus grande abondance 
de sequences d'ADNr appartenant aux y proteobacteries dans I'extrait 
par la methode d'extraction indirecte. 

De plus, un effet significatif de I'incubation de I'echantillon de 
sol dans une solution d'extrait de levure est observe sur les populations 

20 sporulees du sol (Gram*, bas pourcentage de GC et Actinomycetes). 
Cette etape provoque la germination des spores, et permet d'une part 
certainement une meilleure recuperation de ce type de cellules et d'autre 
part une plus grande efficacite de la lyse sur des cellules en germination. 
Cette approche permet une analyse semi-quantitative, ciblee 

25 sur les principaux taxons definis a partir de micro-organismes cultives et 
habituellement retrouves dans les sols. Seuls des outils moleculaires 
permettent d'estimer 1'importance des differents taxons, les methodes de 
mise en culture etant trap restrictives et dependantes de la specificite du 
milieu utilise. 

30 Les resultats montrent qu'une grande part de la population 

microbienne n'est pas representee dans les groupes phylogenetiques 
decrits, mettant ainsi en evidence I'existence de nouveaux groupes 
composes de micro-organismes non cultives jusqu'a present, ou non 
cultivates. 
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Ainsi, de nouvelles sondes peuvent etre definies a partir de 
sequences determinees a partir d'ADN extrait du sol (nouveaux phylums 
composes de micro-organismes non cultives, LUDWIG et al. (1997) afin 
d'obtenir une image plus exacte de la composition de I'extrait d'ADN. 

Exemple 4 : - CONSTRUCTION DU COSMIDE POS 7001 
Caracteristiques de POS 7001: 

Replicatif chez £ coli 
Integratif chez Streptomyces 

Selectionnable chez £ coli AmpR, HygroR et Streptomyces 

HygroR 

Les proprietes du cosmide permettent d'inserer de grands 
fragments dADN entre 30 et 40kb. 
II comprend 

1 - Le promoteur inductible tipA de Streptomyces lividans 

2 - Le systeme d'integration specifique de I'element pSAM2 

3 - Le gene de resistance a Phygromycine 
4- le cosmide pWED1, derive de pWED15 

1) - Le promoteur inductible du gene tip A de S. lividans 

Le gene tipA code une proteine de 19 KD dont la transcription 
est induite par I'antibiotique thiostrepton ou nosiheptide. Le promoteur de 
tipA est bien regule: induction en phase exponentielle et en phase 
stationnaire (200X) Murakami T, Holt TG, Thompson CJ. J. Bacterid 
1989 ;171 : 1459-66 

2) - Le gene de resistance a I'hyqromvcine 

- Hygromycine: antibiotique produit par S. hygroscopicus 

- Le gene de resistance code une phosphotransferase {hph) 

- Le gene utilise provient d'une cassette construite par Blondelet et al 
dans laquelle le gene hyg est sous contrdle de son propre promoteur 
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et du promoteur plac inductible par I'IPTG Blondelet-Rouault et al ; . 
Gene 1997 ; 190:31 5-7 

3) - Le systeme d'inteqration site-specifique 

5 

L'element pSAM2 s'integre dans le chromosome par un 
mecanisme d'integration site-specifique. La recombinaison a lieu entre 
deux sequences identiques de 58 pb presentes sur le plasmide (affP) et 
sur le chromosome (affB). 

10 Le gene int, situe a proximite du site aftP, est implique dans 
Integration site-specifique de pSAM2, et son produit presente des 
similitudes avec les integrases des bacteriophages temperes 
d'enterobacteries. II a ete demontre qu'un fragment de pSAM2 ne 
contenant que le site d'attachement affP ainsi que le gene int etait 

15 capable de s'integrer de la meme maniere que l'element entier. Voir 
brevet francais n°88 06638 du 18/05/1988, ainsi que Raynal A et al. Mol 
Microbiol 1998 28 :333-42). 

4) - Construction du cosmide pOS700l 

20 

Etape 1/ Le promoteur TipA a ete isole du plasmide pPM927 (Smokvina 
et al. Gene 1990; 94:53-9 ) sur un fragment Hindlll-BamHI de 700 
paires de bases et clone dans le vecteur pUC18 (Yannish-Perron et al., 
1985) digere par Hindlll/BamHI 

25 

Etape 21 Ce fragment Hindlll-BamHI a ulterieurement ete transfere de 
pUC18 a pUC19 (Yannish-Perron et al., 1985). 

Etape 3/ Un insert BamHI-BamHI de 1500 paires de bases portant le 
30 gene int et le site attP de pSAM2 a ete isole du plasmide pOSintl, 
represente a la Figure 8. (Raynal A et al. Mol Microbiol 1998 28 :333-42) 
et clone au site BamHI du vecteur precedent (pUC19/TipA), dans 
I'orientation permettant de mettre le gene int sous contrdle du promoteur 
TipA. 

35 
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Etape 4/ Le site BamHI situe en 5' du gene int a ete supprime par 
digestion partielle BamHI puis traitement par I'enzyme Klenow. Un 
fragment Hindlll-BamHI portant TipA-int-attP a ainsi ete isole de pUC19 
ettransfere dans pBR322 Hindlll/BamHI. 

Etape 5/ La cassette Hygromycine isolee de pHP45Qhyg (Blondelet- 
Rouault et al., 1997) sur un fragment Hindlll-Hindlll a ete donee au site 
Hindi 1 1 situe en amont du promoteur TipA. 

Etape 6/ Le site Hindlll situe entre la cassette QHyg et le promoteur 
TipA a ete supprime par traitement Klenow apres digestion partielle 
Hindlll. 

Etape7/ Le plasmide obtenu a Tissue de I'etape precedente permet 
d'isoler un fragment unique Hindlll-BamHI, portant tous les elements 
QHygH"ipA/int attP, qui a ete clone apres traitement Klenow au site 
EcoRV du cosmide pWED1. Le cosmide pWED1, represents a la Figure 
9, derive du cosmide pWE15, represents a la Figure 10 (Wahl GM, et al. 
. Proc Natl Acad Sci U S A 1987 84:2160-4) par deletion d'un fragment 
Hpal-Hpal portant le gene Neomycine et I'origine SV40. 

Une carte du vecteur pOS 700I est representee a la Figure 1 1 . 

Exemple 5: Construction de plusieurs cosmides coniuqatifs et 
inteqratifs chez Streotomvces. les vecteur pQSV 303. POSV306 et 
POSV307 

5 .1 Construction du vecteur pOSV303. 

Etant donne que I'empaquetage selectionne les clones ayant 
une taille superieure a 30kb, seuls 10 a 15% des clones ne contiennent 
pas d'insert, il n'est done pas vraiment necessaire d'avoir un systeme de 
selection des recombinants, ce qui permet de construire un vecteur plus 
petit. 
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Construction: 

Etape 1 : le vecteur pOSVOOl 

Clonage d'un fragment Pstl-Pstl de 800 paires de bases portant 
I'origine de transfert OriT du replicon RK2 (Guiney et al., 1983), dans le 
5 plasmide pUC19 ouvert par Pstl. Cette etape de clonage permet 
d'obtenir un vecteur transferable de E. coli a Streptomyces par 
conjugaison. 

La carte du vecteur pOSV 001 est representee a la Figure 17. 

10 Etape 2 : le vecteur pOSV002 

Insertion du marqueur Hygromycine (cassette fihyg), et 
selectionnable chez Streptomyces, de sorte que le gene conferant la 
resistance a Thygromycine soit transfere en dernier ce qui permet de 
s'assurer du transfert complet du BAC avec I'insert d'ADN du sol. 

15 Clonage de la cassette Hygromycine isolee de pHP45fihyg sur un 

fragment Hindlll-Hindlll portant le gene de resistance a I'Hygromycine.. 
Ce fragment est clone au site Pstl (position 201) du vecteur pOSVOOl. 
Ce site Pstl a ete choisi, compte tenu du sens du transfert, pour que le 
marqueur Hygro soit le dernier transfere lors de la conjugaison. Les 

20 extremites Pstl et Hindlll sont rendues compatibles apres traitement par 
le fragment Klenow de I'ADN polymerase permettant de generer des 
"bouts francs". L'orientation du fragment Qhyg est determinee en fin de 
construction. 

La carte du vecteur pOSV002 est representee a la Figure 18. 

25 

Etape 3 : le vecteur pOSV010 

Le fragment Xbal-Hindlll isole du plasmide pOSV002 et 
contenant le marqueur de resistance a I'hygromycine et I'origine de 
transfert est clone dans le plasmide pOSintl digere par Xbal et Hindlll. 
30 L'orientaion des sites est telle que le marqueur hygromycine sera 
toujours transfere en dernier. 

Le plasmide pOSintl, represents a la Figure 8, a ete decrit dans I'article 
de Raynal et al.( Raynal A et al. Mol Microbiol 1998 28 :333-42). 

Cette construction permet I'expression de I'integrase chez E. 
35 coli et chez Streptomyces. 
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Etape 4 : insertion du site " cos " 

Le principe est d'inserer un site " cos " dans le plasmide 
pOSV010 permettant I'empaquetage dans le plasmide pOSV010, 
5 represents a la Figure 12. 

L'obtention du fragment u cos " est representee a la Figure 1 3. 

Ce fragment est obtenu par PCR. A partir d'un fragment portant 
les extremites cohesives (cos) de X (bacteriophage lambda ou cosmide 
pHC79), une amplification par PCR est realisee a I'aide des 
10 oligonucleotides correspondant aux sequences -50/+130 par rapport au 
site cos. Ces oligonucleotides contiennent en outre les sites de 
clonageNsil, compatible Pstl, Xhol, compatible Sail, EcoRV, "bout 
franc ". 

L'addition des sites rares Swal et Pad permet d'isoier et/ou de 
15 cartographier I'insert clone. 

Le fragment PCR est borne par un site Pstl a I'extremite 5' et 
par un site Hindi a I'extremite 3', permettant le clonage dans le vecteur 
pOSV010 (Figure 12) prelablement digere par les enzymes Nsil et 
EcoRV, provoquant la deletion du represseur laclq. 
20 La carte du vecteur pOSV303 est representee sur la Figure 14. 

Le vecteur pOSV303, contient des sites de clonage tels que le site Nsil, . 
compatible Pstl, le site Xhol, compatible Sail ou encore le site EcoRV 
pour l'obtention de " bouts francs ". 

25 5.2 Construction du vecteur pOSV306 

Etape 1: Construction du vecteur POSV308. 

Le vecteur pOSV308 a ete construit selon le procede illustre a 
30 la figure 27. Un fragment de 643 pb contenant la region cos a ete 
amplifie a I'aide du couple d'amorces de sequences SEQ ID N°107 et 
SEQ ID N°108 a partir du vecteur cosmide pHc79 decrit par HOHM B 
and COLLINS (1980). 
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Ce fragment nucleotidique amplifie a ete clone directement 
dans le vecteur pGEMT-easy commercialise par la Societe PROMEGA, 
comme illustre a la figure 27 afin de produire le vecteur pOSV308. 

5 Etape 2: Construction du vecteur pOSV306. 

Le vecteur pOSV010 a ete construit comme decrit a I'etape 3 
de construction du vecteur pOSV303, comme decrit au paragraphe 5.1 
du present exemple. 
io Le vecteur pOSV1 0 a ete digere par les enzymes EcoRV et Nsil 

afin d'exciser un fragment de 7874 pb qui a ete ulterieurement purifie, 
comme cela est illustre a la figure 28. 

Puis, le vecteur pOSV308 obtenu a I'etape 1) ci-dessus a ete 
soumis a une digestion par les enzymes EcORV et Pstl afin d'exciser un 
15 fragment de 61 7 pb, qui a ete ulterieurement purifie. 

Puis, le fragment cos de 617 pb obtenu a partir du vecteur 
pOSV308 a ete integre par ligation dans le vecteur pOSVIO, afin 
d'obtenir le vecteur pOSV306, comme cela est illustre a la figure 28. 

20 5.3 Construction du vecteur POSV307. 

Le cosmide pOSV307 contient toujours le gene Laclq, afin 
d'ameliorer la stabilite du cosmide dans Streptomyces, par exemple 
dans la souche S17-1 de Streptomyces. 
25 Afin de construire le vecteur pOSV307, on a soumis le vecteur 

pOSV010 a une digestion par I'enzyme Pvull, pour obtenir un fragment 
de 8761 pb qui a ete purifie, puis dephosphoryle. 

Ensuite, le vecteur pOSV308, tel qu'obtenu comme decrit a 
I'etape 1) du paragraphe 5.2 ci-dessus, a ete digere par I'enzyme EcoRI 
30 afin d'obtenir un fragment de 663 pb, qui a ete ensuite purifie et traite par 
I'enzyme de Klenow. 

Le fragment nucleotidique ainsi traite a ete integre dans le 
vecteur pOSV010 apres ligation afin d'obtenir le vecteur pOSV307, 
comme illustre a la figure 29. 

35 
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Exemple 6 : - Construction du cosmide replicatif navette E. co/i- 
Streotomvces pOS700R. 

Les fragments du plasmide pEI16 (Volff et al., 1996) represents 
5 a la Figure 15 ont ete isoles et traites par Klenow. Ces fragments 

contiennent les sequences necessaires a la replication et a la stabilite 

provenant du plasmide SCP2. 

Ces deux fragment sont inseres separement dans le site 

EcoRV du cosmide pWED1 conduisant a 2 clones differents. 
10 La cassette Hygromycine isolee de pHP45Qhyg sur un 

fragment Hindlll-Hindlll a ete donee au site Hindlll des cosmides 

pWED1 contenant I'insert ScP2 sous forme de fragments Pstl-EcoRI ou 

Xbal. Elle confere une resistance a I'Hygromycine selectionnable a la 

fois chez E. coli et chez Streptomyces. 
15 Transformation de S. lividans et determination de I'efficacite de 

transformation. 

II est apparu que le cosmide contenant I'insert Xbal etait moins 
stable que celui contenant le fragment Pstl EcoRI. C'est done ce dernier 
qui a ete retenu sous le nom de pOS700R. 
20 La carte du vecteur pOS 700R est representee sur la Figure 16. 

Exemple 7: Efficacite de transformation des vecteurs integratifs 
(pQS700netreplicatifs 

25 Possibility 

Rendre la souche de S. lividans resistante au thiostrepton par 
integration du plasmide pT01 portant le marqueur de r6sistance au 
thiostrepton 

Preparation de protoplastes a partir de S. lividans cultivee en 
30 presence de thiostrepton 

Avec le vecteur pOS700l, I'efficacite de transformation est 
d'environ 3000 transformants par ug d'ADN. 

Avec le vecteur pOS700R, I'efficacite de transformation est 
d'environ 30 000 transformants par ug d'ADN. 
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Exemple 8 : Construction d'un vecteur BAC integratif chez 

Streptomvces et conjugatif 

Caracteristiques: 

5 

Replicatif chez £ coli 

Transferable par conjugaison de E. coliaux Streptomyces 

Integratif chez Streptomyces 

Selectionnable chez E. coli et Streptomyces 
10 Capable d'inserer de grands fragments d'ADN ; il faut souligner qu'il est 

necessaire de disposer d'ADN du sol dont la taille est comprise entre 

100 et 300kb et non contamine par des petits fragments. En effet les 

petits fragments sont tres preferentiellement integres. 

Dote d'un crible permettant de selectionner les plasmides 
15 portant un insert. Ce crible permet en eliminant les vecteurs refermes sur 

eux meme et non digeres de travailler avec un rapport plus eleve entre 

vecteur et DNA a inserer ce qui permet d'avoir une meilleure efficacite 

de clonage pour constituer des banques. 

20 Construction: 

Etape 1 : le vecteur pOSVOOl 

Clonage d'un fragment Pstl-Pstl de 800 paires de bases portant 
25 I'origine de transfert OriT du replicon RK2 (Guiney et al., 1983), dans le 
plasmide pUC19 ouvert par Pstl. Cette etape de clonage permet 
d'obtenir un vecteur transferable de E. coli a Streptomyces par 
conjugaison. 

La carte du vecteur pOSV 001 est representee a la Figure 17. 

30 

Etape 2 : le vecteur pQSV002 

Insertion du marqueur Hygromycine (cassette Qhyg), et 
selectionnable chez Streptomyces, de sorte que le gene conferant la 
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resistance a I'hygromycine sort transfere en dernier ce qui permet de 
s'assurer du transfert complet du BAC avec I'insert d'ADN du sol. 

Clonage de la cassette Hygromycine isolee de pHP45Qhyg sur un 
fragment Hindlll-Hindlll portant !e gene de resistance a l*Hygromycine.. 

5 Ce fragment est clone au site Pstl (position 201) du vecteur pOSVOOL 
Ce site Pstl a ete choisi, compte tenu du sens du transfert, pour que le 
marqueur Hygro soit le dernier transfere lors de la conjugaison. Les 
extremites Pstl et Hindlll sont rendues compatibles apres traitement par 
le fragment Klenow de I'ADN polymerase permettant de generer des 

10 "bouts francs". L'orientation du fragment Qhyg est determinee en fin de 
construction. 

La carte du vecteur pOSV002 est representee a la Figure 18. 
Etape 3 : le vecteur pOSVOIQ 

15 

Le fragment Xbal-Hindlll isole du plasmide pOSV002 et 
contenant le marqueur de resistance a I'hygromycine et I'origine de 
transfert est clone dans le plasmide pOSintl dig6re par Xbal et Hindlll. 
L'orientation des sites est telle que le marqueur hygromycine sera 
20 toujours transfere en dernier. 

Le plasmide pOSintl, represente a la Figure 8, a ete decrit 
dans I'article de Raynal et al.( Raynal A et al. Mol Microbiol 1998 28 
:333-42). 

25 Cette construction permet I'expression de I'integrase chez E. 

coli et chez Streptomyces. 

Etape 4 : le vecteur pOSV014 

30 Addition d'une "cassette" permettant a terme de s6lectionner 

dans la construction finale les plasmides ayant inseres de I'ADN 
etranger. 

Cette "cassette" porte le gene codant pour le r6presseur CI du phage X 
et le gene conf6rant la resistance a la tetracycline. Ce gene porte dans 
35 sa region 5' non codante la sequence cible du r6presseur. L'insertion 
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d'ADN dans le site Hindlll situe dans la sequence codante de CI conduit 
a la non production du represseur et done a I'expression de la resistance 
a la tetracycline. 

Elle est portee par le plasmide pUN99 decrit dans I'article : Nilsson et al . 
5 (Nucleic Acids Res 1983, 11:8019-30) 

Un fragment Pvull-Hindlll isole de pOSV010 et contenant les sequences 

Int, attP, Hygro et oriT est clone au site Mscl de pUN99 . 

La carte du vecteur pOSV014 est representee sur la Figure 19. 

10 Etape 5 : le vecteur pOSV 403. vacteur BAC inteqratif et conjugatif 

Cette derniere etape de clonage dans pBAC11 (represents a la 
Figure. 20) permet de conferer au plasmide final des caracteristiques de 
BAC (Bacterial Artificial Chromosome), en particulier I'aptitude a 
is accepter des inserts dAON de tres grande taille. 

Le fragment Pstl-Pstl du vecteur pOSV014 portant I'ensemble 
des elements et fonctions decrits precedemment est clone dans le 
pasmide pBAC11 (pBeloBACH) digere par Notl. Les extremites sont 
rendues compatibles pat traitement avec I'enzyme de Klenow. 
20 La carte du vecteur pOSV403 est representee sur la Figure 21. Le 
schema de la Figure 21 indique I'orientation retenue. 

Etape 6 : 

Le vecteur pOSV403 contient les sites Hindlll et Nsil. Le site 
25 Nsil est assez rare chez Streptomyces et presente I'avantage d'etre 
compatible avec Pstl. En revanche, le site Pstl est frequent chez 
Streptomyces et peut etre utilise pour effectuer des digestions partielles. 

Les clones recombinants portant un insert clone dans le 
represseur CI, et done inactivant ce represseur deviennent resistants a 
30 la tetracycline. Etant donne que les BACs ne sont presents qu'a raison 
d'une copie par cellule, il faut selectionner les clones recombinants avec 
une dose plus faible de tetracycline que la dose habituelle de 20 ug/ml, 
par exemple avec une dose de 5 ug/ml. Dans ces conditions il n'y a 
aucun bruit de fond. 
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II est aussi possible d'utiliser un systeme developpe et 
commercialise par la societe InVitrogen, dans lequel I'insertion d'ADN 
dans le vecteur inactive un inhibiteur de la gyrase dont I'expression est 
toxique pour E. coli. Le fragment est preferentiellement isole a partir du 
5 vecteur pZErO-2 (http://www.invitrogen.com/). 

Exemple 9 : Construction d'une banaue de S. alboniger dans les 2 
cosmides integratif ( pOS700n et replicatif (pQS700R) 

io 1) - Construction de la Banque 

Pour evaluer I'efficacite du systeme de clonage, la voie de 
biosynthese de la puromycine de Streptomyces alboniger, a ete donee 
dans les deux cosmides navettes pOS700l et pOS700R. Les genes de 
15 la voie de biosynthese de la puromycine sont portes par un fragment 
d'ADN BamHI d'environ 15 Kb. 

L'ADN genomique de Streptomyces alboniger a ete isole. 90% de cet 

ADN possede un poids moleculaire compris entre 20 et 150 Kb, 

determine par electrophorese en champ pulse. 
20 Les deux cosmides ont ete digeres par I'enzyme fiamHI (site 

unique de clonage). 

Les conditions de digestion partielle BamHI de I'ADN 

genomique ont ete determinees (50 ug dADN et 12 unites d'enzyme, 5 

minutes de digestion). Apres verification de la taille par electrophorese 
25 en gel d'agarose, I'ADN partiellement digere a ete introduit dans les 

vecteurs. Dans la ligation, 15 ug d'ADN genomique + 2 ug du vecteur 

integratif ou 5 ug du vecteur" replicatif ont ete utilises. 

Chaque melange de ligation a ete utilise pour I'encapsidation in 

vitro de I'ADN dans les tetes de bacteriophage lambda. Les melanges 
30 d'encapsidation (0,5ml) ont ete titres (Vecteur integratif pOS700l = 7,5 x 

10 5 cosmides/ml, Vecteur replicatif= 5 x 10 4 cosmides/ml). 

Les cosmides ont ete utilises pour transferer E. coli et generer 

ainsi deux banques d'environ 25000 clones resistant a rampicilline. 

L'ADN de I'ensemble de ces clones a ete isole et quantifie. 
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Pour tester les banques, plusieurs clones ont ete choisis, I'ADN 
purifie et a ete digere par BamHI, afin de verifier la presence et la taille 
des inserts. Les clones testes contiennent entre 20 et 35 Kb d'insert de 
S. alboniger. 

5 

2) - Identification des clones contenant la voie de biosvnthdse de la 
puromvcine 

Les clones susceptibles de contenir la voie complete de biosynthese de 
10 la puromycine ont ete identifies par hybridation avec une sonde 
correspondant au gene de resistance a la puromycine, le gene pac de 
1,1 kb. (Lacalle et al. Gene 1989;79, 375-80 ) 

Banque faite dans le Vecteur Integratif pOS 700I: 

15 

Parmi 2000 clones analyses, 9 clones ont hybride avec la 
sonde et ils contiennent des inserts d'environ 40 kb. 

Banque faite dans le Vecteur replicatif pOS 700R: 

20 

Parmi 2000 clones analyses, 12 clones ont hybride avec la sonde; ils 
contiennent des inserts d'environ 40 kb. 

En utilisant les donnees publiees par Tercero et al. (J Biol 
25 Chem. 1996; 271, 1579-90), les clones contenant la totalite de la voie de 
biosynthese ont ete identifies, apres hybridation avec des sondes 
appropriees. Certains cosmides integratifs et replicatifs presentent apres 
digestion Clal-EcoRV un fragment de 12360 paires de bases, ce qui 
laisse supposer un insert contenant la totalite de la voie de biosynthese 
30 de la puromycine. 

4) - Verification de la production de puromvcine par les clones 
rjjsjstants (Rhone-Poulenc). 
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a) Materials et Methodes 
Souches et conditions de culture : 

5 

Trois clones resistants ont ete selectionnes pour verifier la production de 
puromycine. lis correspondent aux recombinants de S. lividans 
contenant un insert dans le vecteur integratif pOS700l (G 20) ou un 
insert dans le vecteur replicatif (G21 et G22). 

10 

Des souches de reference ont ete utilisees pour s'assurer que les 
milieux de culture utilises permettaient cette production. II s'agit de la 
souche sauvage S. alboniger ATCC 12461, productrice de puromycine 
et de la souche recombinante S. lividans contenant le cluster complet de 
is la puromycine clone dans le plasmide pRCP11 (Lacalle et al, 1992, the 
EMBO journal, 11, 785-792) (G23). 

Les souches sont ensemences dans un milieu de culture dont la 



composition est la suivante : 
20 Peptone bacteriologique Organotechnie 5g/lde milieu final 

Extrait de levure Springer 5 

Extrait de viande Liebig 5 

Glucose Prolabo 1 5 

CaC03 (1) Prolabo 3 

25 NaCI Prolabo 5 

Agar (2) Difco 1 



(1) Les 3g de carbonate sont melanges a 200ml d'eau distillee puis 
sterilises a part. L'addition se faisant apres sterilisation. 
30 (2) L'agar est prealablement.fondu dans 1 00ml d'eau distillee avant d'etre 
ajoute aux autres ingredients du milieu 

pH ajuste a 7,2 avant sterilisation 
sterilisation 25 minutes a 121°C 
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50 |jg/l d'hygromycine et 5 pg/l de thiostrepton sont ajoutes au milieu 
apres sterilisation de facon a maintenir une pression de selection des 
clones contenant un insert gr§ce au gene marqueur present sur le 
vecteur ( le gene de resistance au thiostrepton etant porte par le 
5 plasmide pRCP11). 

50 ml de milieu de culture liquide, repartis en erlenmeyers de 250 ml, 
sont ensemences avec 2 ml de suspension aqueuse de spores et de 
mycelium de chacune des souches. Les cultures sont incubees pendant 

io 4 jours a 28°C avec une agitation de 220 trs/mn.50 ml de milieux de 
production, repartis en erlenmeyers de 250 ml, sont ensuite ensemences 
avec 2 ml de ces pre-cultures. Le milieu de production utilise est un 
milieu industriel optimise pour la production de pristinamycine (milieu 
RPR 201). Les cultures sont incubees a 28°C, avec une agitation de 

is 220trs/mn. Apres differents temps d'incubation, un erlenmeyer de 
chaque culture est amene a pH 1 1 puis extrait par 2 fois 1 volume de 
dichloromethane. La phase organique est concentree a sec sous 
pression reduite, puis I'extrait est repris par 10 pi de methanol. 100 pi de 
la solution methanolique sont analyses en CLHP munie d'un detecteur a 

20 barrette de diodes dans un systeme gradient eau-acetonitrile 0,05% TFA 
V7V sur colonne C18 pour la detection de la puromycine. 

blResultats 

Les analyses HPLC comparatives a partir des cultures des 
25 differentes souches montrent la production de puromycine dans la 
culture de la souche sauvage a partir de 24 h d'incubation. Une 
production, bien que plus faible, est aussi nettement detectee a partir de 
48 h dans la culture du clone G20 contenant le cosmide pOS700l (figure 
23). La puromycine a egalement ete detecte a I'etat de trace dans le 
30 clone G23 contenant I'operon complet codant pour le compose dans le 
plasmide pRCP11. Neanmoins, aucune production n'a ete observee 
dans les cultures des clones G21 et G22 contenant le cosmide 
pOS700R. Les resultats sont reportes sur la Figure 23. 
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c) Conclusions 

Les resultats obtenus permettent de demontrer I'efficacite du 
5 systeme de clonage developpe dans le cosmide pOS700l pour exprimer 
chez un note heterologue tel que S. lividans une voie de biosynthese 
complete sous le contrdle de sequences regulatrices qui lui sont propres. 
D'autre part, ces donnees valident egalement le criblage des banques 
obtenues sur la base de la resistance des clones a la puromycine 
10 puisqu'il a conduit a identifier parmi un petit nombre de clones, un 
recombinant capable d'exprimer la voie de biosynthese associee au 
gene de resistance. L'absence de production de puromycine chez les 
autres clones peut probablement s"expliquer par le clonage d'une partie 
seulement de I'operon contenant le gene de resistance mais depourvue 
is de certaines sequences de regulation, transduction ou, transcription 
necessaires a la synthese du compose. 

EXEMPLE 10 : - CLONAGE D'ADN DU SOLDANS DES VECTEURS 
1) - Preparation de I'ADN du sol a doner 

20 

Les differents fragments d'ADN doivent etre purifiees selon leur 
destination : 

Cosmides 

. 25 

La taille des molecules doit etre comprise entre 30 et 40kb. Or , 
I'ADN extrait du sol est heterogene en taille et comprend des molecules 
atteignant 200 ou 300kb. Afin d'homogeneiser les tallies, I'ADN est 
casse mecaniquement par passage de la solution a travers une aiguille 
30 de 0,4mm de diametre. Les fragments d'une taille voisine de 30kb ne 
sont pas affectes par ces passages repetes a travers une aiguille et il 
n'est done pas necessaire de faire une separation par la taille surtout 
que I'empaquetage dans les particules elimine automatiquement les 
inserts courts. 

35 
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BACs 

Preparation de I'ADN 

L'ADN du sol est separe par electrophorese en champ pulse (type 
5 CHEF) dans des conditions telles que les fragments compris entre 
100 et 300kb sont concentres dans une bande d'environ 5mm. Ceci 
est obtenu en realisant la migration dans un gel a 0,7% d'agarose 
normal ou 1% d'agarose a bas point de fusion avec un temps de 
pulsation de 100 secondes pendant 20 heures et a une temperature 
10 de 10°C. 

Recuperation de I'ADN 

Deux methodes sont utilisees, leur choix depend de la taille des 
15 molecules que Ton veuf isoler, soit jusqu'a 150kb soit au dessus. 

- Jusqu'a 150kb 

La porosite d'un gel a 0,7% d'agarose permet la sortie de I'ADN par 
20 electrocution a condition d'absence totale de bromure d'ethidium. 
Cet ADN est ensuite manipule avec des instruments de pipetage a 
orifice agrandi et hydrophobe pour eviter la fragmentation mecanique 
des molecules. 
-Entre 100 et 300kb 

25 

La bande contenant les fragments d'une taille entre 100 et 300kb est 
decoupee. Pour la migration un gel d'agarose a 1% et a bas point de 
fusion est utilise. Cette propriete permet de fondre le gel a une 
temperature supportable pour I'ADN de 65°C et de le digerer ensuite 
30 par I'agarase (Agarase commercialisee par la societe Boehringer) a 
une temperature de 45°C suivant les prescriptions du fournisseur. 
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2) - Utilisation des cosmides i n teg rati fs pOS700l et replicatifs 
POS700R 

5 Construction par queues polvA polvT 
Principe 

Un vecteur cosmide, ouvert a un site de clonage quelconque, est modifie 
aux extremites 3' en ajoutant un polynucleotide monotone. D'autre part, 
10 I'ADN a doner est modifie aux extremites 3' en ajoutant un 
polynucleotide monotone pouvant s'apparier au precedent. 

L'association vecteur-fragment a doner se fait par ces polynucleotides et 
la sequence cos du vecteur permet I'empaquetage in vitro de I'ADN dans 
is des capsides de phage Lamda. 

Preparation du vecteur 

Le vecteur utilise est un vecteur autoreplicatif chez E. coli et integratif 
20 chez Streptomyces. 

Pour E. coli, la selection se fait sur la resistance a rampicilline et pour 
Streptomyces, elle se fait sur la resistance a I'hygromycine . 
Le cosmide est ouvert a I'un des 2 sites possibles (BamHI ou Hindlll) et 
25 les extremites 3' sont rallongees par du polyA avec de la terminate 
transferase dans les conditions ou le fournisseur de I'enzyme prevoit 
I'addition de 50 a 100 nucleotides. 

Preparation de I'ADN a inserer . 

30 

Les extremites 3' de I'ADN sont rallongees par du polyT avec de la 
terminate transferase dans les conditions foumissant un allongement 
comparable a celui du vedeur. Dans les conditions experimentales 
decrites par le fabricant les queues polyA polyT sont longues de 30 a 70 
35 bases 
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Assemblage des molecules et encapsidation in vitro . 

Pour I'assemblage des molecules, on melange une molecule de vecteur 
5 pour une molecule d'ADN insere. La concentration de I'ADN en masse 
est de 500 ug.ml" 1 . 

Le melange est encapside et l"efficacite de transfection depend de la 
souche utilisee comme receptrice et de I'ADN insere : nulle avec I'ADN 
test et la souche DH5a, I'efficacite est comparable pour les souches 
10 SURE et DH10B ; a I'extraction le rendement en ADN est cependant 
plus eleve avec la souche DH10B. 

Construction par dephosphorylation 

15 L'ADN du sol est mis en bouts francs par elimination des sequences 3' 
sortantes et remplissage des sequences 5' sortantes. Cette operation est 
faite avec : enzyme de Klenow, T4 polymerase, les 4 nucleotides 
triphosphates. Le vecteur cosmidique est digere par BamHI, puis traite 
par I'enzyme de Klenow pour le rendre bout franc puis dephosphoryl6 

20 pour eviter qu'il ne se referme sur lui meme. Apres ligation, le melange 
est encapside et transfecte comme precedemment decrit. 

3) - Utilisation des pBAC 
Principe . 

25 

Le plasmide pBAC conjugatif et integral possede les sites Hindlll et Nsil 
comme sites de clonage. L'insertion d'une sequence d'ADN a ces sites 
inactive le represseur CI du phage Lambda qui contrdle I'expression du 
gene de la resistance a la tetracycline. L'inactivation du represseur rend 
30 done la cellule resistante a cet antibiotique (5ug.ml" 1 ). Le clonage a ces 
sites est facilite par la modification du vecteur et la preparation de I'ADN 
a doner. 
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Preparation du vecteur. Exemple Hindlll 

Pour que le vecteur ne se referme pas sur lui-meme, le site Hind III est 
5 modifie : la premiere base (A) est remise en place pour former une 
sequence 5' sortante, qui ne peut pas s'apparier avec ses semblables. 
L'operation est effectuee par I'enzyme de Klenow en presence de dATP. 

Le succes de l'operation est verifie en effectuant une ligation du vecteur 
10 sur lui-meme avant et apres traitement a I'enzyme de Klenow. A quantity 
d'ADN teste identique, on obtient 3000 clones avant traitement et 60 
apres traitement. 

Preparation de I'ADN (taille comprise entre 100 et 300kb). 
is Mise en bouts francs de I'ADN. 

L'ADN est mis en bouts francs par elimination des sequences 3' 
sortantes et remplissage des sequences 5' sortantes. Cette 
operation est faites avec : enzyme de Klenow, T4 polymerase, les 4 
20 nucleotides triphosphates. 

Preparation des extremites.Exemple Hindlll 

L'addition de I'ADN sur le vecteur se fait au moyen d'oligo- 
nucleotides reconnaissant la sequence Hindlll modifiee du vecteur. 

25 lis contiennent des sites de restriction rares pour permettre les 
clonages ulterieurs (Swal ; Notl). cette technique est derivee de celle 
de : Elledge SJ, Mulligan JT, Ramer SW, Spottswood M, Davis RW. 
Proc Natl Acad Sci U S A 1991 Mar 1;88(5):1731-5 
Deux oligonucleotides complementaires sont utilises : 

30 Oligo 1 : 5'-GCTTATTTAAATATTAATGCGGCCGCCCGGG-3' 
(SEQ ID N°25) 

Oligo 2 : 5'-CCCGGGCGGCCGCATTAATATTTAAATA-3' (SEQ ID 
N°26) 
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lis sont phosphoryles en 5' par la polynucleotide kinase de T4 en 
presence d'ATP, apres leur hybridation. Cette etape de 
phosphorylation peut etre eliminee en utilisant les oligonucleotides 
deja phosphoryles. 

5 La ligation de cet adaptateur double brin avec I'ADN a inserer dans 
un vecteur est faite par la ligase de T4 en presence d'un tres grand 
exces d'adaptateur (1000 molecules d'adaptateur pour une molecule 
d'ADN a inserer), en 15 heures a 14°C. 

L'exces d'adaptateur est elimine par electrophorese sur un gel 
10 d'agarose et les molecules d'interet sont recuperees du gel par 
hydrolyse de celui-ci par de Pagarase ou par electroelution. 

Ligation vecteur- ADN . 

La ligation se fait a 14°C sur 15 heures avec 10 molecules de 
is vecteur pour une molecule d'insert. 

Transformation . 

La souche receptrice est la souche DH10B. La transformation se fait 
par electroporation. Pour exprimer la resistance a la tetracycline, les 
20 transformants sont incubes a 37 °C pendant 1 heure en milieu sans 
antibiotique. La selection des clones se fait par culture pendant une 
nuit , sur milieu gelose LB additionne de tetracycline a Sug.ml" 1 . 



25 Exemple 11 : CONJUGAISON CLONE A CLONE ENTRE E. CPU ET 
STREPTOMYCES 

CONJUGAISON ENTRE E CPU SOUCHE S17.1 CONTENANT PPM803 ET 
STREPTOMYCES LIVIDANS TK 21 

30 

Introduction 

II est possible d'effectuer des conjugaisons entre E. co//'et Streptomyces 
(Mazodier et al, 1989). L'adaptation de cette methode en developpant 
35 une technique dite en goutte ou i'on melange 10 pi d'une culture de E. 
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coli contenant un vecteur recombinant a une goutte de S. IMdans 
recepteur consiste a realiser une transformation de clone a clone en 
s'assurant qu'a la fin de I'operation toute la banque construite dans E. 
coli est introduite dans S. IMdans. Une transformation en vrac amenerait 
5 obligatoirement a une multiplication des clones de Streptomyces 
transformants afin d'etre pratiquement sur que la banque dans E. coli est 
corhpletement representee dans S. IMdans. 
De plus cette methode est facilement automatisable. 

10 Essais preliminaires 

Conjugaison entre E. coli souche S17.1 contenant le vecteur pOSV303 
etS. lividans TK21. 

Dans ces conditions, on melange 6 x 10 6 cellules de E. coli avec 2 x 10 s 
15 spores pre-germees de S. IMdans dans un volume final de 20 pi. 

Mise au point de la methode 

II est connu que I'ADN extrait de certains actinomycetes est modifie et de 
20 ce fait ne peut etre introduit dans certaines souches de E. coli sans qu'il 
soit restreint. La souche de E. coli DH10B qui accepte ces ADN n'est 
pas capable de transferer a Streptomyces un plasmide ne contenant que 
oriT, et il est done necessaire d'en construire une. II faudrait y introduire 
par integration dans le chromosome un derive de RP4 capable de fournir 
25 en trans toutes les fonctions necessaires pour assurer le transfert des 
clones recombinants contenant I'origine de transfert oriT. 

Exemple 12 : Construction d'une banque cosmidique dans E. coli 
et Streptomyces lividans : Clonaqe de I'ADN du sol 

30 

L'objectif est la construction d'une librairie d'ADN de grande 
taille issue de I'environnement, sans etape prealable de culture.des 
microorganismes, dans le but d'acceder aux genes metaboliques de 
bacteries (ou de tout autre organisme) que Ton ne sait pas cultiver dans 
35 des conditions standard de laboratoire. 
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La procedure decrite a ete utilisee pour generer une banque 
d'ADN dans Escherichia coli utilisant le cosmide navette E. coli-S. 
IMdans pOS700l et de I'ADN extrait et purifie de la fraction bacterienne 
5 d'un sol . Cette derniere methode permet d'obtenir de I'ADN d'une 
grande purete et d'une taille moyenne de 40 kb. Aussi, afin d'eviter pour 
le clonage une digestion partielie de I'ADN extrait, a ete adoptee une 
strategie alternative basee sur ('utilisation de I'enzyme terminate 
tranferase qui permet d'ajouter des queues de polynucleotides aux 

10 extremites 3' de I'ADN et du vecteur. 

5 ug d'ADN ont ete extraits de 60 mg de sol de " la Cdte Saint 
Andre " selon le protocole decrit a I'exemple 3 et traites avec de la 
terminate transferase (Pharmacia) pour rallonger les extremites 3' avec 
un polynucleotide monotone (poly T) (Exemple 10). 

is Le cosmide integratif pOS700l est prepare selon le protocole 

B1, Orsay. Apres une etape classique de purification en presence de 
phenol/chloroforme, I'ADN et le vecteur sont assembles en melangeant 
une molecule de vecteur et une molecule d'ADN insere. Le melange est 
ensuite encapside dans les tetes de bacteriophages lambda (kit 

20 Amersham) qui servent a transfecter E. coli DH10B. Les cellules 
transferees sont ensuite ensemencees sur milieu LB agar en presence 
d'ampicilline pour selection des recombinants resistants a cet 
antibiotique. 

25 Une banque d'environ 5000 clones d'E. coli resistants a 

I'ampicilline a ete obtenue. Chaque clone a ete ensemence en milieu 
LBou TB + ampicilline dans un puits de microplaque (96 puits) et 
conserve a -80°C . 

30 La sequence aux sites d'insertions des fragments du sol dans le vecteur, 
pOS700l, generes pendant la construction de la banque a ete analysee. 
Pour cela 17 cosmides de la banques ont ete purifie et sequence avec 
une amorce, seq.5' CCGCGAATTCTCATGTTTGACCG 3', qui hybride 
entre les site BamHI et le site de clonage Hindlll presente dans le 

35 vecteur. 
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Les sequences obtenues ont permis d'estimer que la longueur des 
queues homopolymeriques aux points de jonctions est tres variable, 
entre 13 et 60 poly-dA/dT. Au-dela des queues, les sequences des 
5 fragments du sol ainsi generees possedent un pourcentage en G+C 
entre 53 et 70 %. Des pourcentages si eleves etaient inattendus, mais 
des resultas similaires ont ete deja reportes sur des preparation brut 
d'ADN a partir de sol (Chatzinotas A. et a/., 1998). 

io Une strategie de " pooling " de 48 ou 96 clones a ete utilisee 

pour I'analyse de la richesse microbienne et metabolique. L'ADN 
cosmidique extrait a partir de ces " pools " de clones a ete utilise ensuite 
pour realiser des experiences de PCR ou d'hybridation. 

15 

Exemple 13 : Diversite de I'ADN ribosomique 16S au sein de I'ADN 
clone. 

a) Materiels et methodes 

20 Les cosmides de la banque sont extraits a partir de pools de 

clones par lyse alcaline puis sont purifies sur gradient de chlorure de 
cesium, afin de prelever la bande d'ADN cosmidique sous forme super- 
enroulee et dans le but d'eliminer tout ADN chromosomique 
$ Escherichia coli pouvant interferer dans I'etude. 

25 Apres linearisation des cosmides par action de la nuclease S1 

(50 unites, 30 minutes a 37°C), les sequences d'ADNr 16S contenues 
dans les pools de clones sont amplifiees dans les conditions standard 
d'amplification, a partir des amorces universelles 63f (5- 
CAGGCCTAACACATGCAAGTC-3') et 1387r (5*- 

30 GGGCGGWGTGTACAAGGC-3') definies par MARCHESI et al.(1998). 
Les produits d'amplification d'environ 1.5 kilobases sont purifies a partir 
du kit Qiaquik gel extraction (Qiagen) puis directement clones dans le 
vecteur pCR II (Invitrogen) chez Escherichia coli TOP10, selon les 
instructions du fabricant. L'insert est alors amplifie a I'aide des amorces 

35 M13 Forward et M13 reverse specifiques au site de clonage du vecteur 
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pCR II. Les produits d'ampliflcation de taille attendue (environ 1,7 kb) 
sont analyses par RFLP (Restriction Fragment Length Polymorphism) a 
I'aide des enzymes Cfol, Mspl et BstUI (0,1 unites) afin de selectionner 
les clones a sequencer. Les profils de restriction obtenus sont separes 
5 sur gel d'agarose Metaphore 2.5% (FMC Products) contenant 0,4 mg de 
bromure d'ethidium par ml. 

Les sequences d'ADNr 16S sont alors determinees directement 
en utilisant les produits PCR purifies par le kit " Qiaquick gel extraction " 
a I'aide des amorces de sequencage definies par Normand (1995). Les 

10 analyses phylogenetiques sont obtenues en comparant les sequences 
avec les sequences d'ADNr 16S procaryotes rassemblees dans la base 
de donnees Ribosomal Database Project (RDP), version 7,0 MAIDAK et 
al.(1999) grace au programme SIMILARITY MATCH, permettant 
d'obtenir les valeurs de similarite par rapport aux sequences de la base 

is de donnees. 

b) Resultats 

Pour determiner la diversite phylogenetique representee dans 
la banque, 47 sequences du gene ARNr16S ont ete isolees a partir de 
20 pools de 288 clones et ont ete sequencees dans leur quasi-totalite. Les 
resultats sont rapportes dans le tableau 7. 

L'analyse des sequences par interrogations des bases de 
donnees revele que la majorite des sequences (>61%) presentent des 

25 pourcentages de similarite inferieurs ou egaux a 95% avec des especes 
bacteriennes identifiees (tableau 7). Sur les 47 sequences analysees, 28 
sequences ont pour plus proches voisins des bacteries non cultivees, 
dont les sequences ont ete directement issues d'ADN extrait de 
I'environnement. La majorite de ces sequences presentent par ailleurs 

30 des pourcentages de similarite tres faibles (88-95%), 17 sequences sur 
28 different ainsi de plus de 5% par rapport a leurs voisins les plus 
proches. 

Parmi les sequences pouvant etre classees dans un groupe 
phyletique, une majorite de sequences appartiennent a la sous classe a 
35 des proteobacteries (18 sequences avec un pourcentage de similarite 



WO 01/40497 



118 



PCT/FROO/03311 



compris entre 89 et 99%). Un second groupe de sequences est 
represente par la sous classe g des proteobacteries, comprenant 9 
sequences dont les pourcentages de similarite varient entre 84 et 99%). 
Les groupes des b-proteobacteries, d-proteobacteries, firmicutes a bas 
5 G+C% et a haut G+C% comprennent respectivement 1, 4, 3 et 5 
sequences. Seule une sequence n'a pu §tre classee au sein des grands 
groupes taxonomiques bacteriens definis : la sequence a22.1(19), son 
plus proche voisin Aerothermobacter marianas (avec une similarite de 
89%) etant lui meme une souche isolee de I'environnement marin et non 

10 classifiee a I'heure actuelle.Enfin, 6 sequences peuvent etre classees au 
sein du groupe des Acidobacteriuml Holophaga. Ce groupe presents la 
particularity de n'dtre represente que par deux bacteries cultivees 
Acidobacterium capsulatum et Holophaga foetida, I'ensemble de ce 
groupe etant compose par des bacteries dont seul le gene ARNM6S a 

15 ete detecte par amplification et clonage a partir d'ADN extrait 
d'echantillon de I'environnement (principalement de sol), Ludwig et al 
(1997). Les faibles valeurs de similarite entre les differentes sequences 
composant ce groupe laisse presager une grande heterogeneite et 
diversite au sein de ce groupe. 

20 L'ensemble des resultats est represente sur le tableau 7. 

Ces resultats montrent que les sequences contenues dans la 
banque cosmidique proviendraient de micro-organismes non seulement 
diversifies phylogenetiquement mais surtout de micro-organismes 
n'ayant jamais ete isoles jusqu'a ce jour. 

25 Les resultats du sequencage des ADN amplifies ont permis 

d'etablir un arbre phylogenetique des organismes presents dans 
I'echantillon de sol dont les sequences caracterisees sont originates. 

L'arbre phylogenetique represente a la figure 7 a ete realise a 
30 partir de I'alignement des sequences par le logiciel MASE (Faulner et 
Jurak, 1988) etcorrige par la methode des 2 parametres de Kimura 
(1980), et a I'aide de I'algorithme Neighbour Joining (Saitou et Nei 1987). 
L'analyse phylogenetique a permis de comparer les sequences ADNr 
16S donees dans la banque d'ADN du sol, avec les sequences d'ADNr 
35 16S procaryotes rassemblees dans les bases de donnees Ribosomal 
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Database Project (RDP), (version 7.0, programme SIMILARITY-MATCH, 
Maidak et al 1999), et dans la base GenBank grace au logicel BLAST 
2.0(Atschul era/, 1997). 

5 

Exemple 14 : Preselection genetiaue de la banaue pour revaluation 
de la richesse metabolique 

Pour caracteriser la banque obtenue en terme de diversite 
io metabolique et identifier les clones contenant des inserts portant des 
genes pouvant etre impliques dans des voies de biosynthese, il a ete 
developpe selon I'invention des techniques de criblage genetique basees 
sur des methodes PCR afin de detecter et d'identifier des genes PKS de 
type I. 

15 

1 Souches bacteriennes. plasmides et conditions de culture 

S. coelicolor ATCC101478, S. ambofaciens NRRL2420, S. 
lactamandurans ATCC27382, S. rimosus ATCC1 09610, B. Subtilis 

20 ATCC6633 et B. licheniformis THE1856 (collection RPR) ont ete utilises 
comme sources d'ADN pour les experiences de PCR. S. lividans TK24 
est la souche hdte utilisee pour le cosmide navette POSI700. 

Pour la preparation d'ADN genomique, de suspensions de 
spores, de protoplastes et pour la transformation de S. lividans, on a 

25 suivi les protocoles standard decrits dans Hopwood et al. (1 986). 

Escherichia coli Top10 (INVITROGEN) a ete utilise comme hote pour le 
clonage des produits PCR et E. coli Sure (STRATAGENE) a ete utilise 
comme hote pour le cosmide navette pOS700l. Les conditions de culture 
de E. coli, la preparation de plasmides, la digestion de I'ADN, 

30 I'electrophorese sur gel d'agarose ont ete realisees suivant les 
procedures standard (Sambroock et a/.,1996). 



35 



2. Amorces PCR: 

Les couples d'amorces a1-a2 et b1-b2 ont ete definis par 
I'equipe de N. Bamas-Jacques et leur utilisation a ete optimisee pour le 
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criblage de I'ADN des souches pures et de la banque du sol pour la 
recherche de genes codant PKSI) 



Tableau 8 : 

5 Amorces PCR homoloques aux genes PKSI utilisees pour le 

criblage de la banaue. . 



a1 (+) 


5" CCSCAGSAGCGCSTSTTSCTSGA 3' 


a2 (-) 


5' GTSCCSGTSCCGTGSGTSTCSA 3' 


b1 


5' CCSCAGSAGCGCSTSCTSCTSGA 3' 


b2 


5' GTSCCSGTSCCGTGSGCCTCSA 3" 



10 Conditions d'amplification : 

Pour la recherche de PKS I a partir de I'ADN de souches pures, 
le melange d'amplification contenait : dans un volume final de 50 pi, 
entre 50 et 150 ng d'ADN genomique, 200 pM de dNTP, 5mM de MgCI 2 

15 final, 7% de DMSO, tampon 1x Appligene, 0,4 pM de chaque primer et 
2,5Ude Taq Polymerase Appligene. Les conditions d'amplification 
utilisees sont : denaturation a 95°C pendant 2 minutes, hybridation a 
65°C pendant 1 minute, elongation a 72°C pendant 1 minute, pour le 
premier cycle, suivi par 30 cycles ou la temperature est diminuee 

20 jusqu'a 58°C comme decrit dans K. Seow et a/., 1997. L'etape 
d'extension finale s'effectue a 72°C pendant 10 minutes. 

Pour la recherche de PKS I a partir de I'ADN de la banque, les 
conditions PCR sont les memes que ci-dessus pour le couple a1-a2 en 
25 utilisant entre 1 00 et 500 ng de cosmide extrait de pools de 48 clones. 
Pour le couple d'amorces b1-b2 , 500ng de cosmides issus de pools de 
96 clones ont ete utilises. Le melange d'amplification contenait 200 pM 
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de dNTP, 2,5mM de MgCI 2 final, 7% de DMSO, tampon 1x Quiagen, 0,4 
MM de chaque primer et 2.5U de Taq polymerase Hot-start (Qiagen). Les 
conditions d'amplification utilisees sont : denaturation 15' a 95°C suivie 
par 30 cycles : 1" de denaturation a 95°C + 1" d'hybridation a 65°C pour 
5 le premier cycle et 62°C pour les autres cycles, V d'elongation a 72°C, 
etape d'extension finale de 10' a 72°C. 

L'identification des clones positifs a partir des pools de 48 ou 96 
clones est effectuee a partir des repliques des microplaques meres 
correspondantes sur milieu solide ou toute autre methode standard de 
10 replication. 

3 Sous-clonaqe et sequencaqe 

Les produits PCR des clones identifies ont ete sequences selon le 

15 protocole suivant : 

Les fragments sont purifies sur gel d'agarose (Gel Extraction Kit 
(Qiagen))et clones dans E.coli TOP 10 (Invitrogen) a I'aide du kit TOPO 
TA cloning kit (Invitrogen). L'ADN plasmidique de sous-clones est extrait 
par lyse alcaline sur un Biorobot (Qiagen) et dialyse durant 2 h sur 

20 membrane VS 0,025pm (Millipore). Les echantillons sont sequences 
avec les amorces M13 " Universal " et " Reverse " sur le sequenceur ABI 
377 96( PERKIN ELMER). 

4) Resultats 

25 

Definition et validation des amorces PCR 

Deux regions tres conservees de PKS du type I d'actinomycetes, 
comprenant le site actif de I'enzyme, ont ete ciblees pour ('amplification 
30 de genes homologues avec des amorces degenerees. Ces deux regions 
correspondent aux sequences PQQR(L)(L)LE et VE(A)HGTGT 
respectivement. 

Des amorces (tableau 8) ont ete testees avec I'ADN de souches 
35 productrices ou non de macrolides: Streptomyces coelicolor, 
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Streptomyces ambofaciens, producteur de spiramycine, et 
Saccharopolyspora erythraea, producteur de I'erythromycine. Quelles 
que soient les amorces utilisees, des bandes representant des 
fragments d'environ 700 pb et correspondant a la longueur du fragment 
5 attendu, ont ete obtenues avec toutes les souches. 

Ces resultats demontrent la specificite des amorces a et b pour 
les genes PKS I de souches productrices ou de genes silencieux chez 
S. coelicolor. 

Le sequencage des produits PCR obtenus avec le couple 
10 d'amorces a1-a2 a permis d'identifier, a partir de la souche S. 
ambofaciens, la sequence d'un gene KS deja decrite (Demande de 
brevet europeen n° EP0791656) comme appartenant a la voie de 
biosynthese du plantenolide, precurseur macrolidique de la spiramycine, 
et deux sequences jamais decrites, Stramb 9 et Stramb12, (voir liste 
is sequences). 

En ce qui concerne, S. erythraea, la methode de criblage a 
permis identification d'une sequence de KS (sacen/17) identique a 
celle du KS du module 1 deja publiee dans Genebank (Numero d'acces 
20 M63677), codant pour la synthetase 1 (DEBS1) du 6- 
deoxyerythronolide B. Une autre sequence non correlee a la voie de 
biosynthese de I'erythromycine a ete identifiee et il s'agit de la sequence 
SEQ ID N° 32. 

25 Conclusion 

Une methode pour analyser la presence de genes codant pour les 
PKS du type I par PCR a partir de differents micro-organismes a ete 
mise au point. La structure tres conservee du domaine de la keto- 
synthetase du type I a permis de realiser une methode PCR basee sur 

30 ('utilisation d'amorces degenerees biaisees en GC pour le choix des 
codons. 

Cette approche montre la possibility d'identifier des genes ou 
clusters impliques dans la voie de biosynthese des polyketides du type I. 
Le clonage de ces genes permet la creation d'une collection qui pourra 
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ensuite gtre utilises pour construire des hybrides polyketides. Le m§me 
principe peut §tre applique a d'autres classes d'antibiotiques. 

Les resultats obtenus ici montrent aussi la presence de genes 
pouvant appartenir a des clusters silencieux (SEQ ID N° 30 a 32). 
5 La presence de clusters silencieux a ete deja documentee dans 

S. lividans et leurs expressions sont declenchees par des regulateurs 
specifiques ou pleiotropiques (Horinouchi et al. ;Umeyama et al. 1996) 
Ces resultats suggerent que la detection de genes appartenant a des 
voies dites silencieuses codent en realite pour des enzymes actives 
10 capable de diriger, en association avec les autres enzymes specifiques 
de la voie, les etapes enzymatiques necessaires pour la synthese des 
metabolites secondaires. 

Criblage de la banaue 

is 

Le criblage a ete effectue dans les conditions decrites dans la 
section Materiels et Methodes en utilisant les couples d'amorces 
validees a partir de souches productrices. 

En presence du couple d'amorces a1-a2 , la taille des produits 
20 PCR obtenus a partir de I'ADN cosmidique extrait de pools de 48 ou 96 
clones etait d'environ 700 bp, done en accord avec les resultats 
attendus. 

L'intensite des bandes obtenues etait variable, mais une seule 
bande d'amplification etait presente pour chaque pool d'ADN cible. 

25 Dans ces conditions, 8 groupes d'ADN cible ont ete detectes, 

correspondant a 9 clones positifs apres dereplication. 
Le criblage effectue avec le second couple d'amorces, b1-b2, a donne 
des resultats d'amplification moins specifiques puisque de nombreuses 
bandes satellites etaient observees a cote de la bande de 700 bp. 

30 Neanmoins, 9 groupes d'ADN cible ont ete detectes, correspondant a 14 
clones positifs apres dereplication a partir de ces clones positifs, I'ADN a 
ete extrait pour les etapes de sequencage et de transformation de .S. 
lividans. 
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Analyse des cosmides 

La digestion des cosmides identifies par PCR avec I'enzyme 
Dral, reconnaissant un site riche en AT, libere un fragment superieur a 
5 23 kb (figure 22). Ceci suggere que la methode PCR cible 
preferentiellement I'ADN du sol contenant un haut pourcentage en G+C. 
Ce resultat est la consequence de la degenerescence des amorces 
utilisees, biaisees en GC pour le choix des codons. Les inserts, comme 
attendu dans le cas de cosmides, ont une taille superieure a 23 kb, sauf 
10 dans un cas ( clone a9B12), ce qui pourrait traduire une certaine 
instability des cosmides. D'autre part, parmi tous les clones 
selectionnes, seulement deux d'entre eux, GS.F1 et GS.G11, ont montre 
le meme profil de restriction indiquant un faible taux de redondance dans 
la banque. 

15 Les cosmides selectionnes ont ete transferes dans 

Streptomyces lividans par transformation de protoplastes en presence 
de PEG 1000. L'efficacite de transformation varie entre 30 et 1000 
transformants par ug d'ADN cosmidique utilise. 

20 Sequencaqe et analyse phvloqenetique des genes PKS I du sol 

La methode de PCR mise a point sur les souches pures a ete 
utilisee comme decrite sur les cosmides de la banque et 24 clones ont 
ainsi ete identifies. 

25 Les produits de PCR d'environ 700 bp obtenus a partir de I'ADN de deux 
pools (48 clones) et de 8 clones uniques, ont ete clones, apres 
purification sur gel d'agarose , et sequences. Cela a permis 
('identification de 1 1 sequences. 

30 L'alignement des sequences proteiques deduites PKSs I du sol 

avec d'autres PKSs I presentes dans differents micro-organismes 
(figure 24) montre la presence d'une region tres conservee qui 
correspond a la region consensus du site active de la b-ketoacyl 
synthetase. 

35 
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L'analyse des sequences obtenues avec la methode 
" Codonpreference " (Gribskov et ai, 1984 ; Bibb et a/., 1984) a revele la 
presence d'un fort biais dans I'usage des codons riches en G+C dans 
une seule phase de lecture. Les proteines deduites selon cette phase 
5 de lecture montrent une forte similarity avec des KSs du type I connus ( 
programme Blast). En particulier, la similarite entre les sequences de 
KSs du sol et des KSs du cluster de I'erythromycine est d'environ 53%. 

Apres dereplication d'un pool et identification du clone unique, la 
sequence du produit PCR obtenu a partir de ce clone est identique a 
10 celle du pool ce qui confirme la fiabilite de la methode utilisee. 

L'analyse de la sequence du produit PCR d'un clone a permis 
Identification probable de 3 genes KSI differents. Une de ces 
sequences (SEQ ID N° 34) a une similarite de 98,7% avec la sequence 
d'un autre pool, suggerant qu'elles codent pour la meme enzyme. Les 
15 deux autres sequences sont differentes mais fortement homologues. 

Ici, il est decrit pour la premiere fois le clonage et I'identification 
dans une banque d'ADN du sol de voies de biosynthese de metabolites 
secondaires contenant des genes codant des KS du type I. 

Le pourcentage eleve en G+C des sequences du sol suggere 
20 qu'elles puissent deriver de genomes ayant un usage des codons 
similaire a ceux d'actinomycetes. 

Meme si les donnees disponibles dans la litterature sont reduites, 
on sait que les genes codant des PKS du type I sont tres diversifies de 
par leur organisation physique dans le genome, la taille et le nombre de 
25 modules contenus dans chaque gene. 

La presence de plusieurs domaines provenant d'un seul clone est 
une confirmation de leur appartenance a des clusters de polyketides 
assymetriques. Dans un seul cas, deux clones semblent former un 
contigue puisqu'ils partagent la meme sequence pour le domaine KS. 
30 La taille des regions genetiques impliquees dans la synthese des 

PKSI varie entre quelques kb pour la penicilline a environ 120 kb pour la 
rapamycine. La dimension des inserts cosmidiques peut done ne pas 
etre suffisante pour I'expression des clusters les plus complexes. 

Des genes codant pour des PKSs I, capables de travailler de 
35 facon iterative comme les PKS II et de controler la synthese de 
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polyketides aromatiques, ont ete decrits (Jae-Hyuk et al., 1995). L'etude 
des clusters des PKSs I du sol pourrait apporter encore des nouveautes 
dans ce domaine. 

5 5. Identification de 6 genes codant des polyketides 

synthases . 

On poursuivant le criblage de la banque de cosmides selon les 
protocoles decrits dans le present exemple, les inventeurs ont identifies 
10 un clone de cosmide contenant un insert de 34071 pb contenant 
plusieurs cadres ouverts de lecture codant pour des polypeptides du 
type polyketide synthase. 

Plus precisement, le cosmide ainsi identifie par criblage de la 
banque contient six cadres ouverts de lecture codant pour des 
is polypeptides polyketide synthase ou pour des polypeptides fortement 
apparentes, des peptides synthase non ribosomiques. Une carte 
detaillee de ce cosmide est representee a la figure 36. 

La sequence nucleotidique complete du cosmide constitue la 
sequence SEQ ID N°113 du listage de sequences. L'insert d'ADN 
20 contenu dans la sequence SEQ ID N°113 constitue la sequence 
nucleotidique complementaire (brin - ) de la sequence nucleotidique 
codant pour les differents polyketides synthases. 

La sequence nucleotidique de l'insert d'ADN contenue dans le 
cosmide de la figure 36 qui comprend les cadres de lecture ouverts 
25 codant pour les polypeptides polyketides synthases (brin +) est 
schematisee sur la figure 37 et constitue la sequence SEQ ID N°114 du 
listage de sequences. 

De plus, une carte detaillee des differents cadres de lecture 
ouverts contenus dans l'insert d'ADN de ce cosmide est representee a la 
30 figure 37. 

Les caracteristiques des sequences nucleotidiques comprenant 
des cadres ouverts de lecture contenus dans l'insert d'ADN de ce 
cosmide sont detaillees ci-apres. 
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Sequence ORF1 

La sequence orfl comprend un cadre ouvert de lecture partielle 
d'une longueur de 4615 nucleotides. Cette sequence constitue la 
5 sequence SEQ ID ^115, qui debute au nucleotide en position 1 et se 
termine au nucleotide en position 4615 de la sequence SEQ ID N°114. 

La sequence SEQ ID N°1 15 code pour le polypeptide ORF1 de 
1537 acides amines, ce polypeptide constituant la sequence SEQ ID 
N°121. 

io Le polypeptide de sequence SEQ ID N°121 est apparente aux 

peptides synthases non ribosomiques. Ce polypeptide possede un degre 
d'identite en acides amines de 37% avec le peptide synthase de 
Anabaena sp.90 reference sous le numero d'acces « emb 
CAC01 604.1 » dans la base de donnees Genbank. 

15 

Sequence ORF2 

La sequence nucleotidique orf2 a une longueur de 8301 
nucleotides et constitue la sequence SEQ ID N°116, qui debute au 
20 nucleotide en position 4633 et se termine au nucleotide en position 
12933 de la sequence SEQ ID N°114. 

La sequence ORF2 code pour le peptide ORF2 d'une longueur 
de 2766 acides amines, ce polypeptide constituant la sequence SEQ ID 
N°122. 

25 Le polypeptide de sequence SEQ ID N°122 possede une 

identite de sequence en acides amines de 41% avec la sequence MtaD 
de Stigmatella aurantiaca referencee sous le numero d'acces « gb AAF 
19812.1 » de la base de donnees GENBANK. 

Le polypeptide ORF2 constitue une polyketide synthase. 

30 

Sequence ORF3 

La sequence nucleotidique orf3 a une longueur de 5292 
nucleotides et constitue la sequence SEQ ID N°117. La sequence SEQ 
35 ID N°1 17 correspond a la sequence qui debute au nucleotide en position 
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12936 et qui se termine au nucleotide en position 18227 de la sequence 
SEQIDN°114. 

La sequence nucleotidique SEQ ID N°117 code pour le 
polypeptide polyketide synthase ORF3 de 1763 acides amines, ce 
polypeptide constituant la sequence SEQ ID N°123 selon Invention. 

Le polypeptide ORF3 de sequence SEQ ID N°123 possede une 
identite de 42% en acides amines avec la sequence MtaB de Stigmatella 
aurantiaca referencee sous le n° d'acces « gb AAF 19810.1 » de la base 
de donnees GENBANK. 

Sequence ORF4 

La sequence nucleotidique orf4 a une longueur de 6462 
nucleotides et constitue la sequence SEQ ID N°118 selon I'invention. 

La sequence nucleotidique SEQ ID N°118 correspond a la 
sequence debutant au nucleotide en position 18224 et se terminant au 
nucleotide en position 24685 de la sequence nucleotidique SEQ ID 
N°114. 

La sequence nucleotidique SEQ ID N°118 code pour le 
polypeptide polyketide synthase ORF4 de 2153 acides amines, ce 
polypeptide constituant la sequence SEQ ID N°124 selon I'invention. 

Le polypeptide ORF4 de sequence SEQ ID N°124 possede une 
identite de sequence en acides amines de 46% avec la sequence epoD 
de Sorangium cellulosum referencee sous le n° d'acces « gb 
AAF62883. 1 de la base de donnees GENBANK. 

Sequence ORF5 

La sequence nucleotidique orf5 a une longueur de 5088 
nucleotides et constitue la sequence SEQ ID N°1 19 selon I'invention. 

La sequence SEQ ID N°119 correspond a la sequence 
debutant au nucleotide en position 24682 et se terminant au nucleotide 
en position 29769 de la sequence nucleotidique SEQ ID N°114. 
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La s6quence nucleotidique SEQ ID N°119 code pour le 
polypeptide polyketide synthase ORF5 de 1695 acides amines, ce 
polypeptide constituant la sequence SEQ ID N°125 selon I'invention. 

Le polypeptide polyketide synthase ORF5 de sequence SEQ ID 
5 N°1 25 possede une identite en acides amines de 43% avec la sequence 
epod de Sorangium cellulosium reference sous le n° d'acces « gb AAF 
62883.1 » de la base de donnees GENBANK. 

Sequence ORF6 

10 

La sequence nucleotidique orf6 a une longueur de 4306 
nucleotides, et constitue la sequence SEQ ID N°120 selon I'invention. La 
sequence nucleotidique SEQ ID N°120 correspond a la sequence 
debutant au nucleotide en position 29766 et se terminant au nucleotide 

15 en position 34071 de la sequence SEQ ID ID N°1 14. 

La sequence SEQ ID N°120 contient un cadre ouvert de lecture 
partielle codant pour le polypeptide ORF6 de 1434 acides amines du 
type polyketide synthase, ce polypeptide constituant la sequence SEQ 
IDN°126 selon I'invention. 

20 L « polypeptide de sequence SEQ ID N°126 possede une 

identite en acides amines de 43% avec la sequence epoD de Sorangium 
cellulosum referencee sous le numero d'acces « gb AAF 62883.1 » de la 
base de donnees GENBANK. 

25 EXEMPLE 15: Construc tion de vecteurs navettes de type BAC 
inteqratifs chez Streotomvces 

Construction de ve cteurs navettes du type BAC intearatifc et 
coniuqatifs chez Streptomvces 

30 

15.1 Construction du vecteur pMBD-1 



Le vecteur BAC pMBD-1 a ete obtenu selon les etapes 
suivantes: 
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EtafieJ.: Le vecteur pOSVO10 a ete soumis a une digestion 
par les enzymes PsTI et BstZ17l afin d'obtenir un fragment nucleotidique 
de 6,3 kb. 

5 Etape 2: Le vecteur pDNR-1 a ete digere par les enzymes Pstl 

et Pvull afin d'obtenir un fragment nucleotidique de 4,145 kb. 

Eta P e 3 - Le fragment nucleotidique de 6,3 kb provenant du 
vecteur pOSV017 a ete fusionne par ligation au fragment de 4,15 kb 
10 provenant du vecteur pDNR-1, afin de produire le vecteur pMBD-1, 
comme cela est illustre a la figure 30. 

15.2 Construction du vecteur pMBD-2 

15 Le vecteur pMBD-2 est un vecteur du type BAC contenant une 

boTte integrative « <J>c31 int-flhyg ». 

<t>c31 est un phage tempere a spectre d'hdte large dont le site 
d'attachement (attP) est bien localise. Le fragment (j>c31 int est le 
fragment minimal de I'actinophage <j>c31 capable d'induire Integration 
20 d'un plasmide dans le chromosome de Streptomyces Lividans. 

Qhyg est un derive de I'interposon fi capable de conferer la 
resistance a I'hygromicine chez E.coliei S.Lividans. 

Des vecteurs BAC contenant le systeme d'integration 4>c31 sont 
decrits par SOSIO et al. (2000) et dans la demande PCT n°99 6734 
25 publieele29Decembre1999. 

Le vecteur BAC pmBD-2 a ete construit selon les etapes 
suivantes: 

Etaoe 1: Construction d'une boite integrative <}>c31rnt Qhyg 
dans un plasmide multicopies de E.coli. 
30 0n a tout d'abord amplifie le fragment <fic31int a partir du 

plasmide pOJ436 a I'aide du couple d'amorces suivant: 

- L'amorce EV<(.c31l (SEQ ID N°109) (qui permet d'introduire un 
site EcoRV a I'extremite 5' de la sequence <J>c31) et l'amorce BII<|>c31F 
(SEQ ID N°110) (qui permet I'introduction d'un site BgLII a I'extremite 3' 
35 de la sequence <|>c31). 
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Le fragment fihyg a ete obtenu par digestion a I'aide de 
I'enzyme BamHI du plasmide pHP45 fihyg decrit par BLONDELET- 
ROUAULT(1997). 

Puis la boTte integrative <J.c31 int-fihyg a ete donee dans le 
5 vecteur pMCS5 digere par les enzymes Bglll et EcoRV. 

Etape 2: Co nstruction du vecteur dMBD-2. 

Le chromosome artificiel bacterien pBAce3.6 decrit par 
10 FRENGEN et al. (1999) a ete digere par I'enzyme Nhel puis traite par 
I'enzyme Eco polymerase. 

Puis, le vecteur pMCS5 <j.c31 int-fihyg a ete digere par les 
enzymes SnaBI et EcoRV afin de recuperer la boTte integrative. 

La carte detaillee du vecteur pMBD2 est representee a la figure 

15 31. 

15.3 Construction du vecteur pMBD-3. 

Le vecteur pMBD-3 est un vecteur integratif (<|>c31 int) et 
20 conjuguatif (OriT) du type BAC, qui comprend le marqueur de selection 
fihyg. 

La carte du vecteur pMBD-3 ainsi que son precede de 
construction sont illustres a la figure 31. 

Le vecteur pMBD-3 a ete obtenu en amplifiant le gene OriT a 
25 partir du plasmide pOJ436 a I'aide du couple d'amorces de sequences 
SEQ ID N° 111 et SEQ ID N°112 qui contiennent des sites de restriction 
pad. 

Le fragment nucleotidique amplifie a I'aide des amorces SEQ 
ID N°111 et SEQ ID N°112 a ete clone dans le vecteur pMBD2 
30 prealablement digere par I'enzyme Pad. Le schema de construction du 
vecteur pMBD-3 est illustre a la figure 31. 
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15.4 Construction du vecteur pMBD-4 

La carte detaillee du vecteur pMBD-4 est representee a la 

figure 32. 

5 Le vecteur pMBD4 a ete obtenu en clonant la boTte integrative 

<(>c31 int-Qhyg dans le vecteur pCYTAC2. 

15.5 Construction du vecteur pMBD-5 

to Le schema de construction du vecteur pMBD-5 est illustre a la 

figure 33. 

Le vecteur pMBD-5 a ete construit par recombinaison du 
fragment nucleotidique compris entre les deux sites loxP du vecteur 
pMBD-1 illustre a la figure 33 avec le site loxp contenu dans le vecteur 
15 BAC designe pBTP3, une carte detaillee du plasmide pBTP3 etant 
representee a la figure 34. 

15.6 Construction du vecteur pMBD-6 

20 Le vecteur pMBD-6 a ete construit en recombinant le fragment 

nucleotidique compris entre les deux sites loxP du vecteur pMBD-1 au 
niveau du site loxP du vecteur BAC pBeloBadl, comme represents sur 
la figure 35. 



25 
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TABLEAU 9 : Sequences 



Designation 


SEQ ID N° 


Sondes et amorces 




FGPS431 


1 


FGPS122 


2 


FGPS350 


3 


FGPS643 (T) 


4 


FGPS643 (C) 


5 


R499 


6 


R500 


7 


C501 


8 


FGPS516 


9 


FGPS517 


10 


FGPS518 


11 


FGPS612 


12 


FGPS669 


13 


FGPS618 


14 


FGPS614 


15 


FGPS615 


16 


FGPS616 


17 


FGPS621 


18 


FGPS617 


19 


FGPS680 


20 


FGPS619 


21 


63f 


22 


1387r 


23 


Oligo-1 (Exemple 10) 


24 


Oligo-2 (Exemple 10) 


25 


A1 


26 


A2 


27 


B1 


28 


B2 


29 


Acides nucleiques PKS-I 




Amb9 


30 


Amb12 


31 


Ery19 


32 


A9b12 


33 


A23G1 1-1 


34 


A26G1 1-2 


35 


A26G1-10 


36 
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TABLEAU 9 (suite 1):Sequences 



Designation 


SEQ ID N° 


A35 E4-16 


37 


A49F1-32 


38 


A17d2-3 


39 


A53F11-13 


40 


A53F11-14 


41 


A22A2-11 


42 


A36E8-1 


43 


A52E8-2 


44 


Sequences d'acides amines PKS-I 




Amb9 


45 


Amb12 


46 


Ery19 


47 


A9b12 


48 


A23G1 1-1 


49 


A26G1 1-2 


50 


A26G1-10 


51 


A35 E4-16 


52 


A49F1-32 


53 


A17d2-3 


54 


A53F11-13 


55 


A53F1M4 


56 


A22A2-11 


57 


A36E8-1 


58 


A52E8-2 


59 


Sequences ADNr 16S 




a24.1(2), 


60 


a4.a6.a7 (7) 


61 


a52.a53.a5(15) 


62 


a49.a50.a51 (11) 


63 


a4.a6.a7(14) 


64 


a30.a31.a32(7) 


65 


a37.a38.a39(6) 


66 


a46.a47.a48(14) 


67 


a49.a50.a51(1) 


68 


a52.a53.a5(8) 


69 


a8.a9.a10(13) 


70 


a1.a2.a3(13) 


71 


a43.a44.a45(10) 


72 


a27.a28.a29(5) 


73 
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TABLEAU 9 (suite 2):Sequences 



Designation 


SEQ ID N° 


a23.1 


74 


a25.1 


75 


a18.1(22) 


76 


a33.1 


77 


a14.7 


78 


a21.7 


79 


a8.a9.a10(7) 


80 


a8.a9.a10(18) 


81 


a27.a28.a29(3) 


82 


a34.a35.a36(5) 


83 


a22.1(19) 


84 


a11.a12.a13(5) 


85 


a19.a20.a26(9) 


86 


a40.a41.a42(6) 


87 


a27.a28.a29(8) 


88 


a27.a28.a29(12) 


89 


a37.a38.a39(12) 


90 


a46.a47.a48(6) 


91 


a11.a12.a13(11) 


92 


a15.a16.a17(12) 


93 


a15.a16.a17(5) 


94 


a19.a20.a26(13) 


95 


a37.a38.a39(14) 


96 


a8.a9.a10(9) 


97 


a19.a20.a26(5) 


98 


a43.a44.a45(4) 


99 


ala2.a3(4) 


100 


a4.a6.a7(23) 


101 


a49.a50.a51 (22) 


102 


a8.a9.a10(2) 


103 


a34.a35.a36(3) 


104 


a34.a35.a36(10) 


105 


a40.a41.a42(13) 


106 
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TABLEAU 9 (suite 3) : 



Sequences 



Designation 


SEQ ID N° 


Amorces 




cos 1 n (exemple 5) 


107 


cos 2 n (exemple 5) 


108 


EV<|>c31l (exemple 15) 


109 


BII«|)c31F (exemple 15) 


110 


Amorce 1 (exemple 15) 


111 


Amorce 2 (exemple 15 


112 


Acides nucleiques PKS-I 




Cosmide a2641 (vecteur + insert brin (-) 


113 


Cosmide a2641 (insert - brin (+) 


114 


orfl 


115 


orf2 


116 


orf3 


117 


orf4 


118 


orf5 


119 


orf6 


120 


Sequences acides amines PKS-I 




ORF1 


121 


ORF2 


122 


ORF3 


123 


ORF4 


124 


ORF5 


125 


ORF6 


126 
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REVENDICATIQNS 

1. Procede de preparation d'une collection d'acides nucleiques a partir 
d'un echantillon de sol contenant des organismes, ledit procede comprenant la 
succession d'etapes suivante : 

- 1 (a) Obtention de micro-particules par broyage d'un echantillon de 
sol prealablement seche ou dessique , puis mise en suspension des 
micro-particules dans un milieu tampon liquide ; et 

(b) extraction des acides nucleiques presents dans les micro- 
particules ; et 

(c)- passage de la solution contenant les acides nucleiques sur un 
tamis moleculaire, puis recuperation des fractions d'elution enrichies 
en acides nucleiques et passage des fractions d'elution enrichies en 
acides nucleiques sur un support de chromatographie d'echange 
d'anions, puis recuperation des fractions d'elution contenant les 
acides nucleiques purifies. 

2. Procede de preparation d'une collection d'acides nucleiques a partir 
d'un echantillon de I'environnement contenant des organismes, ledit procede 
comprenant la succession d'etapes suivante : 

- II (i) Obtention d'une suspension par dispersion de I'echantillon de 
I'environnement en milieu liquide puis homogenisation de la 
suspension par agitation douce; et 

(ii) separation des organismes et des autres constituants mineraux 
et/ou organiques de la suspension homogene obtenue a I'etape (i) par 
centrifugation sur un gradient de densite ; et 

(iii) lyse des organismes separes a I'etape (ii) et extraction des acides 
nucleiques; et 

(iv) purification des acides nucleiques sur un gradient de chlorure de 
cesium. 

3. Procede selon la revendication 1, caracterise en ce que I'etape I- 
(a) est suivie d'une etape complementaire de : 

- traitement des micro-particules en suspension dans un milieu 
tampon liquide par sonication ; 
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4. Procede selon la revendication 1 , caracterise en ce que I'etape 
l-(a) est suivie des etapes complementaires suivantes : 

- traitement des micro-particules en suspension dans un milieu 
tampon liquide par sonication ; 

- incubation de la suspension a 37°C apres sonication en presence de 
lysozyme et d'achromopeptidase; 

- addition de SDS 

- recuperation des acides nucleiques. 

5. Procede selon la revendication 1, caracterise en ce que I'etape I- 
(a) est suivie des etapes complementaires suivantes : 

- homogeneisation des micro-particules a I'aide d'une etape de 
mixage violent (vortex) suivie d'une etape de simple agitation ; 

- congelation de la suspension homogene suivie d'une decongelation ; 

- traitement par sonication de la suspension apres decongelation ; 

- incubation de la suspension a 37°C apres sonication en presence de 
lysozyme et d'achromopeptidase; 

- addition de SDS; 

6 .Procede selon I'une des revendications 1 a 5 caracterise en ce 
que les acides nucleiques sont des molecules d'ADN. 

7. Procede de preparation d'une collection de vecteurs 
recombinants, caracterise en ce que les acides nucleiques obtenus par le 
procede selon I'une des revendications 1 a 6 sont inseres dans un vecteur 
de clonage et/ou d'expression. 

8. Procede selon la revendication 7, caracterise en ce que les 
acides nucleiques sont separes en fonction de leur taille prealablement a 
leur insertion dans le vecteur de clonage et/ou d'expression. 

9. Procede selon la revendication 7, caracterise en ce que la taille 
moyenne des acides nucleiques est rendue sensiblement uniforme par 
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rupture physique, prealablement a leur insertion dans le vecteur de clonage 
et/ou d'expression. 

10. Procede selon la revendication 7, caracterise en ce que le 
vecteur de clonage et/ou d'expression est du type plasmide. 

11. Procede selon la revendication 7, caracterise en ce que le 
vecteur de clonage et/ou d'expression est du type cosmide. 

12. Procede selon la revendication 11,' caracterise en ce qu'il s'agit 
d'un cosmide replicatif chez E. coli et integratif chez Streptomyces. 

13. Procede selon la revendication 12, caracterise en ce qu'il s'agit 
du cosmide pOS700l. 

14. Procede selon la revendication 11, caracterise en ce qu'il s'agit 
d un cosmide conjugatif et integratif chez Streptomyces. 

15. Procede selon la revendication 14, caracterise en ce que le 
cosmide est choisi parmi les cosmides pOSV303, pOSV306 et pOSV307. 

16. Procede selon la revendication 11, caracterise en ce qu'il s'agit 
d'un cosmide replicatif a la fois chez E. co//'et chez Streptomyces. 

17. Procede selon la revendication 16, caracterise en ce qu'il s'agit 
du cosmide pOS 700R. 

18. Procede selon la revendication 11, caracterise en ce qu'il s'agit 
d'un cosmide replicatif chez E. coli et Streptomyces et conjugatif chez 
Streptomyces. 

19. Procede selon la revendication 7, caracterise en ce que le 
vecteur de clonage et/ou d'expression est du type BAC. 
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20. Procede selon la revendication 19, caracterise en ce qu'il s'agit 
d'un vecteur BAC integratif et conjugatif chez Streptomyces. 

21. Procede selon la revendication 20, caracterise en ce que le 
vecteur est choisi parmi les vecteurs BAC pOSV403, pMBD-1, pMBD-2, 
pMBD-3, pMBD-4, pMBD-5 et pMBD-6. 

22. Procede de preparation d'un vecteur recombinant de clonage 
et/ou d'expression, caracterise en ce que I'etape d'insertion d'un acide 
nucleique dans le vecteur de clonage et/ou d'expression comprend les 
etapes suivantes : 

- ouvrir le vecteur de clonage et/ou d'expression a un site de clonage 
choisi, a I'aide d'une endonuclease de restriction appropriee ; 

- ajouter un premier acide nucleique homopolymerique a I'extremite 3' 
libre du vecteur ouvert ; 

- ajouter un second acide nucleique homopolymerique, de sequence 
complementaire au premier acide nucleique homopolymerique, a 
I'extremite 3' libre de I'acide nucleique de la collection a inserer dans le 
vecteur; 

- assembler I'acide nucleique du vecteur et I'acide nucleique de la 
collection par hybridation du premier et du second acide nucleique 
homopolymerique de sequences complementaires Tune de I'autre; 

- refermer le vecteur par ligation. 

23. Procede selon la revendication 22, caracterise en ce que : 

- le premier acide nucleique homopolymerique est de sequence poly(A) 
ou poly (T) ; et 

- le second acide nucleique homopolymerique est de sequence poly(T) 
ou poly(A). 

24. Procede de preparation d'un vecteur recombinant selon I'une 
des revendications 22 ou 23, caracterise en ce que la taille de I'acide 
nucleique a inserer est d'au moins 100 kilobases, preferentiellement d'au 
moins 200 kilobases. 
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25. Precede de preparation d'un vecteur recombinant selon I'une 
des revendications 22 a 24, caracterise en ce que I'acide nucleique a inserer 
est contenu dans la collection d'acides nucleiques obtenus par le precede 
selon I'une des revendications 1 a 6. 

26. Precede de preparation d'un vecteur recombinant de clonage 
et/ou d'expression, caracterise en ce que I'etape d'insertion d'un d'acide 
nucleique dans le vecteur de clonage et/ou d'expression comprend les 
etapes suivantes : 

- creation de bouts francs sur les extremites de I'acide nucleique de la 
collection par elimination des sequences 3' sortantes et remplissage 
des sequences 5" sortantes ; 

- ouverture du vecteur de clonage et/ou d'expression a un site de 
clonage choisi, a I'aide d'une endonuclease de restriction appropriee ; 

- creation de bouts francs aux extremites de I'acide nucleique du 
vecteur par elimination des sequences 3' sortantes et remplissage des 
sequences 5' sortantes, puis dephosphorylation des extremites 5' ; 

- Addition d'adaptateurs oligonucleotidiques complementaires ; 

- insertion de I'acide nucleique de la collection dans le vecteur par 
ligation. 

27. Precede de preparation d'un vecteur recombinant selon la 
revendication 26, caracterise en ce que la taille de I'acide nucleique a inserer 
est d'au moins 100 kilobases, preferentiellement d'au moins 200 kilobases. 

28. Precede de preparation d'un vecteur recombinant selon I'une 
des revendications 26 ou 27, caracterise en ce que I'acide nucleique a 
inserer est contenu dans la collection d'acides nucleiques obtenus par le 
precede selon I'une des revendications 1 a 6. 

29. Precede selon I'une des revendications 22 a 28, caracterise en 
ce que les acides nucleiques sont inseres tels quels, sans traitement par une 
ou plusieurs endonucleases de restriction prealablement a leur insertion 
dans le vecteur de clonage et/ou d'expression. 
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30. Collection d'acides nucleiques constitute des acides nucleiques 
obtenus par le precede selon I'une des revendications 1 a 6. 

31. Acide nucleique caracterise en ce qu'il est contenu dans la 
collection d'acides nucleiques selon le revendication 30. 

32. Acide nucleique selon le revendication 31, caracterise en ce 
qu'il comprend une sequence nucleotidique codant au moins un operon, ou 
une partie d'un operon. 

33. Acide nucleique selon la revendication 32, caracterise en ce 
que I'operon code pour la totality ou une partie d'une voie metabolique. 

34. Acide nucleique selon la revendication 33, caracterise en ce 
que la voie metabolique est la voie de synthese des polyketides. 

35 Acide nucleique selon la revendication 34, caracterise en ce qu'il 
est choisi parmi les polynucleotides comprenant les sequences SEQ ID N e 
30a44etSEQIDN° 115 a 120. 

36. Acide nucleique selon la revendication 31, caracterise en ce 
qu'il comprend la totalite d'une sequence nucleotidique codant pour un 
polypeptide 

37. Acide nucleique selon I'une des revendications 31 a 36, 
caracterise en ce qu'il est d'origine procaryote. 

38. Acide nucleique selon la revendication 37, caracterise en ce 
qu'il provient d'une bacterie ou d'un virus. 

39. Acide nucleique selon I'une des revendications 31 a 33 et 36, 
caracterise en ce qu'il est d'origine eucaryote. 

40. Acide nucleique selon la revendication 39, caracterise en ce 
qu'il provient d'un champignon, d'une levure, d'une plante ou d'un animal. 
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41. Vecteur recombinant caracterise en ce qu'il est choisi parmi les 
vecteurs recombinants suivants : 

a) un vecteur comprenant un acide nucleique selon I'une des 
revendications 35 a 40; 

b) un vecteur obtenu selon le precede de I'une des revendications 22 a 
25 et 29; 

c) un vecteur obtenu selon le precede de I'une des revendications 26 a 
29. 

42 Vecteur caracterise en ce qu'il s'agit du cosmide pOS 700I. 

43. Vecteur caracterise en ce qu'il s'agit du cosmide pOSV303. 

44. Vecteur caracterise en ce qu'il s'agit du cosmide pOSV306. 

45. Vecteur caracterise en ce qu'il s'agit du cosmide pOSV307. 

46. Vecteur caracterise en ce qu'il s'agit du cosmide pOS 700R. 

47. Vecteur caracterise en ce qu'il s'agit du vecteur BAC pOSV403. 

48. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-1. 

49. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-2 

50. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-3. 

51. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-4. 

52. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-5. 

53. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-6. 
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54. Collection de vecteurs recombinants tels qu'obtenus selon le 
procede de I'une des revendications 7 a 21 , 25 et 28. 

55. Vecteur recombinant de clonage et/ou d'expression caracterise 
en ce qu'il est contenu dans la collection de vecteurs recombinants selon la 
revendication 54. 

56 Cellule hdte recombinante comprenant un acide nucleique selon 
I'une des revendications 31 a 40 ou un vecteur recombinant selon la 
revendication 55. 

57. Cellule note recombinante selon la revendication 56, 
caracterisee en ce qu'il s'agit d'une cellule procaryote ou eucaryote. 

58. Cellule h6te recombinante selon la revendication 57, 
caracterisee en ce qu'il s'agit d'une bacterie. 

59. Cellule hdte recombinante selon la revendication 58, 
caracterisee en ce qu'il s'agit d'une bacterie choisie parmi E. coli et 
Streptomyces. 

60. Cellule hdte recombinante selon la revendication 58, 
caracterisee en ce qu'il s'agit d'une levure ou d'un champignon filamenteux. 

61. Collection de cellules hotes recombinantes, chacune des 
cellules hdtes constitutives de la collection comprenant un acide nucleique 
de la collection d'acides nucleiques selon la revendication 30. 

62. Collection de cellules hotes recombinantes, chacune des 
cellules hotes constitutives de la collection comprenant un vecteur 
recombinant selon Tune des revendications 41 ou 55. 

63. Procede de detection d'un acide nucleique de sequence 
nucleotidique determinee, ou de sequence nucleotidique structurellement 
apparentee a une sequence nucleotidique determinee, dans une collection 
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de cellules hotes recombinantes selon Tune des revendications 61 ou 62, 
caracterise en ce qu'il comprend les etapes suivantes : 

- mettre en contact la collection de cellules hdtes recombinantes avec 
un couple d'amorces hybridant avec la sequence nucleotidique 
determinee ou hybridant avec la sequence nucleotidique 
structurellement apparentee a une sequence nucleotidique 
determinee ; 

- realiser au moins trois cycles d'amplification ; 

- detecter I'acide nucleique eventuellement amplifie.. 

64. Procede de detection d'un acide nucleique de sequence 
nucleotidique determinee, ou de sequence nucleotidique structurellement 
apparentee a une sequence nucleotidique determinee, dans une collection 
de cellules hotes recombinantes selon Tune des revendications 61 ou 62, 
caracterise en ce qu'il comprend les etapes suivantes : 

- mettre en contact la collection de cellules hdtes recombinantes avec 
une sonde hybridant avec la sequence nucleotidique determinee ou 
hybridant avec une sequence nucleotidique structurellement 
apparentee a la sequence nucleotidique determinee ; 

- detecter I'hybride eventuellement forme entre la sonde et les acides 
nucleiques compris dans les vecteurs de la collection. 

65. Procede pour identifier la production d'un compose d'interdt par 
une ou plusieurs cellules hotes recombinantes dans une collection de 
cellules hates recombinantes selon I'une des revendications 61 ou 62, 
caracterise en ce qu'il comprend les etapes suivantes : 

- culture des cellules hdtes recombinantes de la collection dans un 
milieu de culture approprie ; 

- detection du compose d'interet dans le surnageant de culture ou dans 
le lysat cellulaire d'une ou plusieurs des cellules hdtes recombinantes 
cultivees. 

66 Procede pour selectionner une cellule hdte recombinante 
produisant un compose d'interet dans une collection de cellules hotes 
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recombinantes selon Tune des revendications 61 ou 62, caracterise en ce 
qu'il comprend les etapes suivantes : 

- culture des cellules notes recombinantes de la collection dans un 
milieu de culture approprie ; 

- detection du compose d'interet dans le surnageant de culture ou dans 
le lysat cellulaire d'une ou plusieurs des cellules hdtes recombinantes 
cultivees. 

- selection des cellules hotes recombinantes produisant le compose 
d'interet. 

67. Procede pour la production d'un compose d'interet caracterise 
en ce qu'il comprend les etapes suivantes : 

- cultiver d'une cellule note recombinante selectionnee selon le procede 
de la revendication 66; 

- recuperer et, le cas echeant, purifier, le compose produit par ladite 
cellule bote recombinante. 

68. Compose d'interet caracterise en ce qu'il est obtenu selon le 
procede de la revendication 67. 

69. Compose selon la revendication 68, caracterise en ce qu'il s'agit 
d'un polyketide. 

70. Polyketide caracterise en ce qu'il est produit grace a 
I'expression d'au moins une sequence nucleotidique comprenant une 
sequence choisie parmi les sequences SEQ ID N°30 a 44 et SEQ ID N°115 
a 120. 

71. Composition comprenant un polyketide selon la revendication 
69 ou 70. 

72. Composition pharmaceutique comprenant une quantite 
pharmacologiquement active d'un polyketide selon la revendication 69 ou 70, 
en association avec un vehicule pharmaceutiquement compatible. 
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73. Precede de determination de la diversite des acides nucleiques 
contenus dans une collection d'acides nucleiques et tout particulierement 
d'une collection d'acides nucleiques provenant d'un echantillon de 
I'environnement, preferentiellement d'un echantillon du sol, ledit precede 
comprenant les etapes suivantes: 

- mise en contact des acides nucleiques de la collection d'acides 
nucleiques a tester avec un couple d'amorces oligonucleotidiques hybridant 
a toute sequence d'ADN ribosomal 16 S bacterien; 

- realisation d'au moins trois cycles d'amplification; 

- detection des acides nucleiques amplifies a I'aide d'une sonde 
oligonucleotidique ou d'une pluralite de sondes oligonucleotidiques, chaque 
sonde hybridant specifiquement avec une sequence d'ADN ribosomal 16 S 
commune a un regne, un ordre, une sous-classe ou un genre bacterien; 

- le cas echeant, comparer les resultats de I'etape de detection 
precedente avec les resultats de detection, a I'aide de la sonde ou de la 
pluralite de sondes, d'acides nucleiques de sequence connue constituant 
une gamme etalon. 

74. Precede selon la revendication 73, caracterise en ce que le 
couple d'amorces hybridant a toute sequence d'ADN ribosomal 16 S 
bacterien est constitue de I'amorce FGPS 612 (SEQ ID N°12) et de I'amorce 
FGPS 669 (SEQ ID N°13). 

75. Precede selon la revendication 73, caracterise en ce que le 
couple d'amorces hybridant a toute sequence d'ADN ribosomal 16 S 
bacterien est constitue de I'amorce 63 f (SEQ ISD N°22) et de I'amorce 1387 
(SEQ ID N°23). 

76. Acide nucleique comprenant une sequence nucleotidique 
d'ADNr 16S choisie parmi les sequences possedant au moins 99% d'identite 
en nucleotides avec les sequences SEQ ID N° 60 a SEQ ID N° 106. 

77. Precede de production d'une polyketide synthase de type I, ledit 
precede de production comprenant les etapes suivantes: 

- obtention d'une cellule note recombinante comprenant un acide 
nucleique codant pour une polyketide synthase de type I comprenant une 
sequence nucleotidique choisie parmi les sequences SEQ ID N°33 a SEQ ID 
N°44, SEQ ID N°30 a SEQ ID N°32 et SEQ ID N° 1 15 a SEQ ID N°120. 
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- culture des cellules hdtes recombinantes dans un milieu de culture 
approprie; 

- recuperation et, le cas echeant, purification de la polyketide 
synthase de type I a partir du sumageant de culture ou du lysat cellulaire. 

78. Polyketide synthase comprenant une sequence d'acides 
amines choisie parmi les sequences SEQ ID N°45 a 59 et SEQ ID N° 121 a 
SEQ ID N°126. 

79. Anticorps dirige contre une polyketide synthase selon la 
revendication 78. 

80. Precede de detection d'une polyketide synthase de type I ou 
d'un fragment peptidique de cette enzyme, dans un echantillon, ledit precede 
comprenant les etapes de: 

a) mettre en contact un anticorps selon la revendication 79 avec 
I'echantillon a tester; 

b) detecter le complexe antigene/anticorps eventuellement forme. 

81. Necessaire de detection d'une polyketide synthase de type I 
dans un echantillon comprenant: 

a) un anticorps selon la revendication 79; 

b) le cas echeant, des reactifs necessaires a la detection du 
complexe antigene/anticorps eventuellement forme. 
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Sol sec et tamise 



. Determination de I'ADN extracellulaire: 
Homogeneisation de la suspension de sol (Vortex) 

2. Broyage du sol sec. 

I 3. Homogeneisation de la suspension de sol 

- 4a. Sonication a I'aide d'une micro-pointe 
' — 5a. Lyse par le lysozyme et le SDS 

- 4b. Sonication a I'aide du dispositif Cup Horn 
1 — 5b. Lyse sur le lysozyme et le SDS 
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Figure 3 
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Figure 5 
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Figure 8 
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Figure 12 
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FIGURE 15 
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Figure 16 
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Figure 17 
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Figure 18 



WO 01/40497 



PCT/FR00/03311 



20/38 




Xbal(4434) 



Figure 19 



WO 01/40497 



PCT/FROO/03311 



21/38 




Figure 20 
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Figure 21 
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<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : sonde 
FGPS431 

<220> 

<221> variation 
<222> (14) 

<223> Base A remplacee par G 
<400> 1 

acgggcggtg tgtac 



<210> 2 
<211> 22 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle: amorce 
FGPS122 
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ggagagtttg atcatggctc ag 
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<210> 3 
<211> 20 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle: amorce 
FGPS350 

<400> 3 

cctggagtta agccccaagc 



<210> 4 
<211> 24 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle: sonde 
FGPS643 

<220> 

<221> variation 
<222> (20) 

<223> T remplacee par C 
<400> 4 

gtgagtnnna acctgcccct gact 

<210> 5 
<211> 21 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle: sonde 
FGPS643-2 

<400> 5 

gtgagtaacc tgcccccgac t 

<210> 6 
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<213> Sequence artificielle 
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<223> Description de la sequence artif icielle : amorce 
R499 
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ttaattcact tgcaactgat ggg 
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<210> 7 
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<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle: amorce 



<210> 8 
<211> 25 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle : sonde C501 



<210> 9 
<211> 20 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle : amorce 
FGPS516 

<400> 9 

tccagatcct tgacccgcag 20 



<210> 10 
<211> 20 
<212> ADN 

<213> Sequence artificielle 



R500 
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aacgatagct cctacatttg gag 
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<220> 

<223> Description de la sequence artificielle : amorce 
FGPS517 

<400> 10 

cacgacattg cactccaccg 



<210> 11 
<211> 16 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle: sonde 
FGPS518 

<400> 11 

ccgtgagccg gatcag 1S 



<210> 12 
<211> 20 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : FGPS612 
<220> 

<221> variation 
<222> (2) 

<223> Base C remplacee par T 
<220> 

<221> variation 
<222> (7) 

<223> Base T remplacee par C 
<220> 

<221> variation 
<222> (7) 

<223> Base T remplacee par A 
<400> 12 

ccaacttcgt gccagcagcc 
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<220> 
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<220> 
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<222> (7) 
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<220> 

<221> variation 
<222> (13) 

<223> Base A remplacee par C 
<400> 13 

gacgtcatcc ccaccttcct c 21 



<210> 14 
<211> 18 
<212> ADN 

<213> Sequence artificielle 
<220> 
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<220> 

<221> variation 
<222> (5) 

<223> Base T remplacee par C 
<400> 14 

atggttgtcg tcagctcg 13 

<210> 15 
<211> 21 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle : FGPSG14 



<400> 15 

gtgtagaagt gaaattcgat t 
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<210> 16 
<211> 18 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : FGPS615 
<400> 16 

cggtggatga tgtggatt 



<210> 17 
<211> 18 
<212> ADN 

<213> Sequence artificielle 



<220> 

<223> Description de la sequence artificielle : FGPS616 
<400> 17 

aggttaaaac tcaaatga ig 



<210> 18 
<211> 18 
<212> ADN 

<213> Sequence artificielle 



<220> 

<223> Description de la sequence artificielle:FGPS621 
<400> 18 

atacgtaggt ggcaagcg 



<210> 19 
<211> 19 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle :FGPS617 
<400> 19 

gccggggtca actcggagg 19 
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<212> ADN 

<213> Sequence artificielle 
<220> 
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<220> 

<221> variation 
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<220> 

<221> variation 
<222=> (13) 

<223> Base T remplacee par A 
<400> 20 

tgagtcccca actccccg 18 



<210> 21 
<211> 20 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : FGPS619 
<400> 21 

gcttggggct taactccagg 



<210> 22 
<211> 21 
<212> ADN 

<213> Sequence artificielle 



<220> 

<223> Description de la sequence artificielle: amorce 63f 
<400> 22 

caggcctaac acatgcaagt c 21 
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<211> 18 
<212> ADN 

<213> Sequence artif icielle 
<220> 

<223> Description de la sequence artif icielle : amorce 
1387r 

<400> 23 

gggcggngtg tacaaggc 18 



<210> 24 
<211> 30 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle :oligo-l 



<400> 24 

gcttatttaa atattaagcg gccgcccggg 

<210> 25 
<211> 28 
<212> ADN 

<213> Sequence artificielle 



30 



<220> 

<223> Description de la sequence artif icielle :oligo-2 
<400> 25 

cccgggcggc cgcattaata tttaaata 



<210> 26 
<211> 23 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle : amorce al 
<400> 26 

ccncagnagc gcntnttnct nga 



<210> 27 
<211> 22 
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<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce a2 
<400> 27 

gtnccngtnc cgtgngtntc na 22 

<210> 28 
<211> 23 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce bl 
<400> 28 

ccncagnagc gcntnctnct nga 23 

<210> 29 
<211> 22 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle: amorce b2 
<400> 29 

gtnccngtnc cgtgngcctc na 22 

<210> 30 
<211> 672 
<212> ADN 

<213> Streptomyces ambofaciens 
<400> 30 

ccccagcagc acgtgttcct cgagacggtg tgggagacct tcgaatccgc cggagtggac 60 

ccgcgcgcgg tacgcggtcg ttccgtcggg atgttcgtcg gcaccaacgg acaggactac 120 

ccggtggtgt tggccggatc cgccgacgag ggcctggacg cccacgcggc caccggtaac 180 

gcggcggcgg tgctgtccgg ccgggtctcg tacgccttcg gcctggaagg gccggcggtc 240 

accgtcgaca cggcgtgttc gtcgtcgctg gtggcccttc acctggccgc gcaggcgctg 300 

cggcgcggcg agtgcgatct ggcactcgcc ggcggtgtgt cggagatgtc caccgaggcg 360 

gcgttcaccg agttcgcccg gcagggcggc ctggccgacg acggccgctg caaggccttc 420 

tcggccgacg ccgacggcac gggctggggc gagggcgtcg gcgtcctgct ggtggagcgg 480 

ctggcggacg cccgccgcaa cgggcaccgg gccctcgcgc tggtacgggg cagcgcggtc 540 

aaccaggacg gcgcctccaa cggtctgacg gcacccaacg gcccgtccca gcagcgagtc 600 
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atccggcagg cactggcgga cgcccggctg tcgccgtcgg aggtcgacgc ggtcgagacc 660 
cacggcaccg gc 672 



<210> 31 
<211> 665 
<212> ADN 

<213> Streptomyces ambofaciens 
<400> 31 

ccccagcagc gcgtgttcct ggaagcgtcc tgggaggcgg tcgagcgggc aggcatcgac 60 
atgcgcaccc tgcgcggtgg acgcaccggc gtcttcgccg gcgtgatgta ccacgactac 120 
ccgtcggtgg tcgaccccga agcgctcgac ggctacctgg gcacggccaa cgccggcagc 180 
gttctctccg gccgcatcgc ctacaccttc gggcttcagg gaccggcggt caccgtggac 240 
acggcctgct cctcgtccct ggtggcgctg cacctcgccg cccaggcgct gcccgccggc 300 
gagtgcgaac tcgccctggt cggtggggtc acggtcatgt ccggcccgat gatgttcgcg 360 
ggcttcggcc tggaagacgg ctctgccgcc gacggccgct gcaaggcgtt cgccgccgcc 420 
gccgacggca ccggctgggg cgagggtgtc ggtgtgctgc tggtggagcg gctgtcggac 480 
gcccggcgcc acgggcaccg ggtgctggcc gtggtgcgcg gtagcgcggt caaccaggac 540 
ggtgcctccg gcggcctcac cgcccccaac ggacctgccc agcagcgcgt catccgtcag 600 
gccctggcga gcgcggcact cgtaccggcc gaggtcgacg cggtcgagac ccacggcacc 660 

gggac ~ ~ 665 



<210> 32 
<211> 671 
<212> ADN 

<213> Saccharopolyspora erythraea 
<400> 32 

ccgcaggagc gcgtgttcct ggaactcgct tgggaagcac ttgataacgc gggcatcgca 60 
ccgcacagcc tcagggacag ccggacgggc gtgttcttcg gagctatgtg gcacggctac 120 
gcgcagttcg cagccggagc cgtcgaccgc atcacccagc acaccgcgac cgggcacgac 180 
ctgagcatca tcccggccag gatcgcctac ttcctgggct tgcgcggccc ggacatgacc 240 
ctgaacaccg cgtgctcatc ggctttggtg gccatgcacc aggcacgcca aagcatcctg 300 
ctgggcgaat cctcggtcgc cttggtcggc gggatcagct tgttggtcgc gctggacagc 360 
atggtcgcca tgtcgcggtt cggagcgatg gccccggacg gccggtgcaa ggcattcgac 420 
tctcgcgcga acggctacgt gcgcggcgaa ggcggcggtg tcgtggtgct caaaccgctg 480 
tcgcgcgctc tggccgatgg caacccggtc tactgcgtcc tgcgcggcag cgcggtcaac 540 
aacgacggct tcagcaatgg ccttaccgcg ccgagcccgg cggcgcagga gcaggtactg 600 
cgcgacgcct acgccaacgc cggggtcgat ccggcacagg tcgactacgt cgagacccac 660 
gggaccggca c 671 



<210> 33 
<211> 686 
<212> ADN 

<213> Organime Inconnu 



<220> 
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<223> Origine de la sequence rorganisme du sol 
<400> 33 

ccgcaggagc gcgtgttcct cgagtcgtgc tgggaggcgc tggagcatgc tggatacgat 60 

actgcacgct accccggccg catcgggctg tgggccggcg cgggcttcaa cagctacctc 120 

ctgaccaatc tcatgaacaa ccgcgccttt ttagagagcg tgggcatgta ccagatcttt 180 

ctgagcaacg acaaggactt catcgccacc cgcacggctt acaagttaaa cctgcgcggt 240 

ccggcgatgg ccgtcggcac cgcctgttcc acatcgctgg tggcggttca cgaagcttgc 300 

caggcgctgc ggctgggcga gtgtgacatg gcactggccg gtgctgcgtc tgtcagcacg 360 

cccctccggg agggctacct ctaccaggaa ggcatgatta tgagccgtga cggcgtctgc 420 

cgcccgtttg acgccgacgc cgatggcacg gtgctgggca atggcgtggc ggtcgtggtg 480 

ctcaagcggc tggacgaagc gctccgggac ggtgacacgg tctacgccgt gattcgtggc 540 

acggcggtca acaacgacgg ctctgtcaag atcgggttca cggcgcccag cgccgagggg 600 

cagagccggg tcgtgcggga cgccctgcgg gcggccgcgg tcccggcgga gagcgtgacc 660 

tacgtcgaca cgcacggcac cggcac 686 



<210> 34 
<211> 689 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 34 

ccccagcagc gcctgttcct cgagtgcgcg tgggaagcga tggagaacgc gggatatgcg 60 
gcgcgaagct ataagggttc gatcggcgtt ttcgcgggat gcggcgtcaa tacctacctg 120 
ctgaacaacc tcgccaccgc ggagccgttc gatttctcac gcccctccgc gtaccagctg 180 
ctgacggcca acgacaagga tttcctggcc acgcgtgtct cttacaagct gaacctccgc 240 
gggcccagcc tgacggttca gacggcgtgc tccacctcgc tggtgtcggt ggtgatggca 300 
tgcgagagct tgcagcgcgg cgcctcggac attgccttgg ccgggggagt tgccatcaat 360 
gttccgcagt ccgtggggta cctgcaccag ccgggcatga tcctgtcgcc cgacgggcgc 420 
tgccgcgcct tcgatgagtc cgctcaaggc acggtgccgg gcaacggcgc gggtgtggtc 480 
gtcctcaagc gcttgagccg cgctctggcc gatggcgaca cgatctacgc cgtcattcgc 540 
ggagcggcta ttaataatga tggcgccgag cgcatggggt ttaccgctcc aggtgtggac 600 
ggtcagacgc gattgattcg gcgcactcaa gagatggcgg gcgtgaagcc ggagtccatc 660 
ggctacatgg acacccacgg caccggcac 689 



<210> 35 
<211> 671 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 35 

ccgcagcagc gcctcttcct cgaggtggca tgggaagctt tggagcgtgc gggtcggccg 60 
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cccgacagtc tcgcgggcag cgacaccgga 
agccggctga aacctaccga tccggcgctc 
ttcagcactg ccgccggacg gatctcctat 
gtcgacacgg cgtgctcttc ctcactcgtg 
tcgcgagagt gcagcatggc gctggccggc 
acgatctact tctgccgcct gcgggccatg 
gcctccgccg acggttacgg ccgcggcgag 
tccgatgcga cgcgtgacgg cgatcgtatt 
cacggcggcc gcagcaacgg cctcacggcg 
cgggcggcgc tcaagaacgc cggcatggcc 
ggcaccggca c 



gtgttcatcg ggatcagcac cgacgactac 120 
attgacgcct ataccggtac cggaaccgcg 180 
ctgctggggt tgcagggacc gaacttcccc 240 
gcggttcatc tggcgtgccg cagcttgcag 300 
ggcgtgaacc tgattctggc gccggaaagc 360 
gcggccgatg gccgttgcaa aagtttcgct 420 
ggatgcggaa tgctggtgct gaagcggctg 480 
ctggcgctga ttcgcggatc ggccgtcaac 540 
ccgaacggtc cggcgcagga agccgtgatt 600 
cccgccgatg tcgattacgt ggacacccac 660 
671 



<210> 36 
<211> 758 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 36 

ccgcaggagc gcgtcttcct cgaacgcatt gacggtttcg atgcggaatt cttcggcatc 60 
tccccccgcg aagctctgaa catggatccg cagcagcggc tgctgctgga agtgtgctgg 120 
gaagcggcag aggacgccgg catctctccc ggccctctgg cgggcagcgc gaccggcgtc 180 
tttgccggct cctgcgccca ggacttcgga ctgtttcagt acgccgaccc tgcccgcatc 240 
ggagcttggt cgggttccgg cgtggcgcat agcatgttgg ccaatcgcat ctcctatctg 300 
ctcgacctgc gcggtccgag catggcggtc gatacggcct gctcctccgc gctcgtcgcc 360 
gtccatctgg cttgccaaag cctgcgccgg cgcgaatgcg atgcggcatt cgccggcgga 420 
gtgaacttga tcctgactcc cgagggcatg atcgctttgt cgaaggctcg catgttggcg 480 
cccgacggac gctgcaagac gttcgacgcc gcagccgacg gttatgtgcg cggcgagggc 540 
tgcggcatcg tgctgctgaa gcggctctcc gatgcgctgg ccgatggcga tgccatctgt 600 
gcagtcatcc gcggctcggc aatcaatcag gacggacgga gcaatggcat cacggcgccg 660 
aatctgcagg cgcagaaggc ggtcctgcaa gaggcggtgg ccaacgcgca catcgatcca 720 
tcccacgtat cgttgatcga cacgcacggc accggcac 758 



<210> 37 
<211> 704 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 37 

ccgcagcagc gcgtgttcct cgagtgcgcc tgggaggcgg tggaaagcgc gggctacgat 60 
cccgaaaaat atcccggcct gatcggagtt ttcgccgggg ccagcatcaa cagctatttc 120 
ctttataacc tcgcgcacaa ccgggaattc gtcgcccgca tggcggggga gtaccaagtg 180 
ggcgagtacc agacgatcct cggaaacgac aaggactacc tccccactcg cgtctcctac 240 
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aaattgaacc tgcgcggccc cagcctggcc gtgcagtccg cctgctcgac cggcctcgtc 300 
gccgtttgtc aggccattca aaatctgcag acttatcagt gcgatatggc cctcgcgggc 360 
ggcatctcga tttcgtttcc gcaaaagcgc gactaccgct tcaccgacga aggaatggtc 420 
tctcgcgacg gtcactgccg cccgttcgac gccagcgcgc aaggcacggt cttcggcaac 480 
ggggccggcg tcgtcctgat gaaaagattg gccgacgcag tgaccgatcg ggacacgatc 540 
ctcgccgtga ttaggggcgc tgccgtgaac aacgacggcg gcgtcaaaat gggttacacg 600 
gcgcccagtg ccgaaggtca ggcggaggcc atcaccctgg ccctcgcgct cgctggcgtc 660 
agcccggaga ccatcacttg catggacacc cacggcaccg gcac 704 



<210> 38 
<211> 680 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 38 

ccccagcagc gcgtgttcct cgaatgcgcc tgggcggcgc tggagcgccg ccggatatca 60 
gggcgacacc ttccacggtg tccatcggcg gtctatgcct caagcggctt taacacctat 120 
cttctgaacc tgcatgccaa tgccgcggtg cgccaatcga tcagcccgtt tgaactgttc 180 
gtcgccaacg acaaggattt tctggcgacg cgcacggctt acaagctcaa tctgcgcggc 240 
ccggccatga cagtgcagac ggcctgctcc tcatcgttgg ttgccgttca tgtcgccgcg 300 
caaagcctcc tagcgggcga atgcgatatt gcgctcgcgg gcggcatcac ggtttcccgt 360 
tcgcatggat atgtggcgcg cgaaggtgga atattgtctc ctgacgggca ttgccgggcg 420 
ttcgatgcgg atgccggcgg aaccgttcca ggcagcggcg tcggcgttgt cgtgctcaag 480 
cgtctcgaag atgcgcttgc agacggcgat acgatcgacg ccgtcatcat cggttcggcc 540 
atcaacaatg atggcgcgct gaaggcgagc tttaccgcac cgcaggtgga cagccaggcc 600 
ttggtcatca gcgaggccca tgcagctgcc ggaatatcgg ccgattccat cggttatatg 660 
gacacccacg gcaccgggac " 680 



<210> 39 
<211> 671 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 39 

ccgcagcagc gcctcttcct cgagctcacc tgggaagcgc tggaagatgc cggcatcccg 60 
ccgtccacga ttgccggcac gaatgtcggc gttttcatgg gcgcgtcgca ggctgactac 120 
ggccacaagt tcttcagcga ccacgccgtc gcggattccc atttcgccac cggcacctcg 180 
ctggcggtcg tcgccaatcg catttcctac atctacgacc tgcgcggccc aagcctcact 240 
gtagacacgg cgtgctcgtc gtcgctcgtc gcgctgcatc aggcggtgga agcgctccgc 300 
tcggggcgga tcgaaacagc cattgtcggc ggcattaacg ttatcgccag cccggcgtcc 360 
ttcatcgcct tctcgcaggc ctcgatgctg tcgccgacgg ggttgtgcca ggctttctcc 420 
gccaaggccg atggctttgt ccgcggcgag ggcggcacgg ttttcgtcct gcgcaaggcg 480 
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gcgcatgcgc atggcagccg caacccggtg 
tccgacgggc gtaccaacgg catctcgctg 
caacgcgtct attcacgcgc atcgatcgat 
gggaccggca c 



cgcgggctca ttctcgccac cgacgtcaat 540 
ccatcggccg aagcgcagga agtcctcctg 600 
ccgaaccgcc tggctttcgt cgacacccac 660 
671 



<210> 40 

<211> 764 

<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :organisme du sol 



<400> 40 

ccgcagcagc gcgtgttcct cgacggcatc 
acgccgcgcg aggcgatcag catggacccg 
gaagcgctgg agcgcgccgg cgtggcgccc 
ttcatcggca tcagcaccaa cgactacggc 
gatccgggga tgtacttcgg caccggcaac 
tacgtcctcg gcctgcaggg tccgagcatg 
gtggcgattc atctcgcgtg tcagagcctg 
ggcggcgcca acctggtgct cgtcccggaa 
ctcgcgcctg acgggcgctg caagacgttc 
gaaggggccg cggtgatcgt gctgaagcgg 
atcgtcgcgc tgatccgcgg atccgcggtc 
gcgccgaacg aactggcgca gcaggcggtg 
gccgcgtccg acatcggcta cgtggacacg 



gaccggttcg atccgcgtca cttcgcgatc 60 
cagcagcggc tcctgctcga ggtcacgtgg 120 
gatcgcctga ccggatccga caccggcgtc 180 
cagatcctgc tgcgcgcctc ggaccagatc 240 
ctgttgaacg cggcggcggg acgcctctcg 300 
gcggtcgaca ccgcatgtcc gtcgtcgctg 360 
cgcaaccgcg agtgccgcat ggcgctcgcc 420 
gtgacggtca actgctgccg cgccaagatg 480 
gacgccgcgg cggacggcta cgtccgcggc 540 
ctctccgacg cgctggcgga cggcgatccg 600 
aatcaggacg gccgcagcgg cggcttcacc 660 
atccggaccg cgctcgcggc agcgggcgtc 720 
cacggcaccg ggac 764 



<210> 41 
<211> 763 
<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :organisrae du sol 
<400> 41 

ccgcagcagc gcgtgttcct cgacggcatc gaccgcttcg atccgcagtt tttcgggatc 60 
gcgccgcgcg aagcggccgg catcgatccg cagcagcggc tgctgctcga gacgacgtgg 120 
gaagcgctgg aagacgccgg gacgtcgccg gaaaagctgc agggaacccc ggccggcgtg 180 
ttcgtcggca tcaacagcat cgactacgcg acgctgcagc tgcagaactg cgatctggcc 240 
agcatcgacg cctattcgct ctccggcagc gcgcacagca tcgcggccgg gcggctcgcc 300 
tacgtgctcg gcctgcaggg gccggcgatg gcggtcgaca ccgcctgctc gtcgtcgctg 360 
gtcgcgatcc acctggcgtg ccagagcctg cgcaacgacg actgccgcgt cgccgtggcc 420 
ggcggcgtgc acgtcacgct gacgccgatc aacatggtcg tgttctcgaa gctgcgcatg 480 
ctggcggcgg acggcaagtg caagacgttc gacggccgcg gcgacggatt cgtcgaaggc 540 
gagggctgcg cggtcatcgt cctcaagcgg ttgtcgcacg cgcttgccga caaggatcgg 600 
atcctcgcgc tggtgcgcgg ttcggcggtc aaccaggacg gcgcgagcag cggtctcacc 660 



WO 01/40497 



15 



PCT/FROO/03311 



gcgccgaacg gtccggcgca ggaagcggtc atccgcgcgg cgttgaagcg ggccggcgtg 720 
cagccggcgg aggtcggcta cgtggacacc cacggcaccg gca 763 



<210> 42 
<211> 668 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 42 

ccgcaggagc gcgtgctgct ggaatcctcg tggcatgcgc tggaagacgc cggctatgcc 60 
ggcgaaagca tcgccggcgc gcgctgcggc gtgtacatgg gcttcaacgg cggcgactac 120 
ggcgacctgc tgtacggcca gccgtcgctg ccgccgcacg cgatgtgggg caacgccgcc 180 
tcggtgctgt cggcgcgcat cgcctattac ctggacctgc aaggcccggc gatcaccctc 240 
gacaccgcct gttcgagctc gttggtcgcg gtgcatctgg cctgccaggg gctgtggacc 300 
ggcgagaccg atctggccct ggccggcggc gtgtggatcc agtgcacgcc cggattcctg 360 
atctcctcca gccgcgccgg catgctctcg ccgaccggcc agtgccgcgc gttcggcgcc 420 
ggcgccgacg gcttcgtgcc gtccgaaggc gtcggcgtgg tcgtgctcaa gcgcctgcag 480 
gacgcgctcg acgccggcga ccacatntac ggcgtgatcc gcggcagcgc gatcaaccag 540 
gacggcgcca gcaacggcat caccgcgccg agcgccgccg cccaggagcg cttgcagcgc 600 
cacgtctacg acagcttcgg catcgacgcc tcgcgcctgc agatgatcga ggcccacggc 660 
accggcac 668 



<210> 43 
<211> 671 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 43 

ccgcaggagc gcgtgctgct ggaggtgact tgggaggcac tcgaagacgc cggccaagac 
gtggaccgtc tggccgggcg gcccgtcggc gtcttcgtcg ggatctcgtc gaacgattac 
ggccagcttc agaacggcga cccggccgac gtggacgcct acgtcggcac cggtaacgcg 
ctgagcatcg ccgccaaccg actcagctac acgtttgact ttcgcggccc gagtctggcg 
gtggacacgg cgtgctcgtc ttcactcgtc gcgatccatc tcgcctgcca gagcgttcgc 
cgcggtgaag cggaactcgc cgtcgcggcc ggcgtcaact tgattctgac ccccggcctg 
acggtgaatt tcacccgcgc cggcatgatg gcgcctgacg gccggtgcaa gacgttcgac 
gcggccgcca acggctacgt gcgcggcgaa ggcgccggcg tcgtcgtgct caagccgctg 
gcccaggcta tcgccgacgg cgacccgatc tacgcgatcg tccgtggcag cgccgtcaac 
caggacggcc gttccaacgg cctcaccgcc ccgaaccgac aggcccaaga ggtcgtgctg 
cgggccgcgt atcgtgacgc gggcatcagc ccggccgatg tcgacgccgt cgaggcccac 
ggcaccggca c 



60 
120 
180 
240 
300 
360 
420 
480 
540 
600 
660 
671 
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<210> 44 
<211> 707 
<212> ADN 

<213> Organirae Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 44 

ccccagcagc gcgtgttcct cgaggacgcg actgaggtcg acgtggatgc gctttcagac 60 
ggcgaagacg tcgtgatcgc cggcatcatg cagcacatcg aggaggccgg catccactcg 120 
ggcgattcat cgtgcgtgct tccgccggtc gacatcccgc cgaaggcgct gcagacgatc 180 
cgcgatcaca cgttcaagct cgcgcgcgcg ttgaaggtca tcggcctgat gaacgtgcag 240 
tacgcgattc agcgcgacaa ggtctacgtg attgaggtaa accctagggc ttctcgaact 300 
gtcccgtatg tctcgaaggc gacaggcgtg ccgctggcga aggtcgcgtc acgcttgatg 360 
accggacgca aactgcacga gctgttgccg gaaggggtcg agcgcggctg gatcaccacc 420 
gcgggcgaga atttctacgt gaagtcgccg gtcttcccgt ggggtaagtt cccgggcgtt 480 
gacactgtgc tcgggccgga gatgaaatcg accggcgaag tcatgggcgt cgccgacaac 540 
ttcggcgagg ccttcgccaa ggcacagatc gccgccggca catacctgcc gaccgaaggt 600 
accgtcttca tctcggtcaa cgaccgtgac aaaggcaacg tcattcagct ggcgcagcgt 660 
ttctccgaac tcggtttcgg cattgtcgac acgcacggca ccgggac 707 



<210> 45 

<211> 225 

<212> PRT 

<213> Streptomyces ambofaciens 

<400> 45 

Pro Gin Gin His Val Phe 
1 5 

Ala Gly Val Asp Pro Arg 
20 

Val Gly Thr Asn Gly Gin 
35 

Asp Glu Gly Leu Asp Ala 
50 

Leu Ser Gly Arg Val Ser 
65 70 

Thr Val Asp Thr Ala Cys 
85 

Ala Gin Ala Leu Arg Arg 

100 105 no 



Leu Glu Thr Val Trp Glu Thr Phe Glu Ser 
10 15 

Ala. Val Arg Gly Arg Ser Val Gly Met Phe 
25 30 

Asp Tyr Pro Val Val Leu Ala Gly Ser Ala 
40 45 

His Ala Ala Thr Gly Asn Ala Ala Ala Val 
55 60 

Tyr Ala Phe Gly Leu Glu Gly Pro Ala Val 
75 80 

Ser Ser Ser Leu Val Ala Leu His Leu Ala 
90 95 

Gly Glu Cys Asp Leu Ala Leu Ala Gly Gly 
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Val Ser Glu Met Ser Thr Glu Ala Ala Phe Thr Glu Phe Ala Arg Gin 
115 120 125 

Gly Gly Leu Ala Asp Asp Gly Arg Cys Lys Ala Phe Ser Ala Asp Ala 
130 135 • 140 

Asp Gly Thr Gly Trp Gly Glu Gly Val Gly Val Leu Leu Val Glu Arg 
145 150 155 160 

Leu Ala Asp Ala Arg Arg Asn Gly His Arg Ala Leu Ala Leu Val Arg 
165 170 175 

Gly Ser Ala Val Asn Gin Asp Gly Ala Ser Asn Gly Leu Thr Ala Pro 
180 185 190 

Asn Gly Pro Ser Gin Gin Arg Val lie Arg Gin Ala Leu Ala Asp Ala 
195 200 205 

Arg Leu Ser Pro Ser Glu Val Asp Ala Val Glu Thr His Gly Thr Gly 
210 215 220 

Thr 
225 



<210> 46 
<211> 207 
<212> PRT 

<213> Streptomyces ambofaciens 
<400> 46 

Ala Ser Trp Glu Ala Val Glu Arg Ala Gly He Asp Met Arg Thr Leu 
1 5 10 15 

Arg Gly Gly Arg Thr Gly Val Phe Ala Gly Val Met Tyr His Asp Tyr 
20 25 30 

Pro Ser Val Val Asp Pro Glu Ala Leu Asp Gly Tyr Leu Gly Thr Ala 
35 40 45 

Asn Ala Gly Ser Val Leu Ser Gly Arg He Ala Tyr Thr Phe Gly Leu 
50 55 60 

Gin Gly Pro Ala Val Thr Val Asp Thr Ala Cys Ser Ser Ser Leu Val 
65 70 75 80 

Ala Leu His Leu Ala Ala Gin Ala Leu Pro Ala Gly Glu Cys Glu Leu 
85 90 95 
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Ala Leu Val Gly Gly Val Thr Val Met Ser Gly Pro Met Met Phe Ala 
100 105 * no 

Gly Phe Gly Leu Glu Asp Gly Ser Ala Ala Asp Gly Arg Cys Lys Ala 
115 120 125 

Phe Ala Ala Ala Ala Asp Gly Thr Gly Trp Gly Glu Gly Val Gly Val 
130 135 140 

Leu Leu Val Glu Arg Leu Ser Asp Ala Arg Arg His Gly His Arg Val 
145 150 155 160 

Leu Ala Val Val Arg Gly Ser Ala Val Asn Gin Asp Gly Ala Ser Gly 
165 170 175 

Gly Leu Thr Ala Pro Asn Gly Pro Ala Gin Gin Arg Val lie Arg Gin 
180 185 ~ 190 

Ala Leu Ala Ser Ala Ala Leu Val Pro Ala Glu Val Asp Ala Val 
195 200 205 



<210> 47 
<211> 223 
<212> PRT 

<213> Saccharopolyspora erythraea 
<400> 47 

Pro Gin Glu Arg Val Phe Leu Glu Leu Ala Trp Glu Ala Leu Asp Asn 
15 10 15 

Ala Gly He Ala Pro His Ser Leu Arg Asp Ser Arg Thr Gly Val Phe 
20 25 30 

Phe Gly Ala Met Trp His Gly Tyr Ala Gin Phe Ala Ala Gly Ala Val 
35 40 45 

Asp Arg He Thr Gin His Thr Ala Thr Gly His Asp Leu Ser He He 
50 55 60 

Pro Ala Arg He Ala Tyr Phe Leu Gly Leu Arg Gly Pro Asp Met Thr 
65 70 75 80 

Leu Asn Thr Ala Cys Ser Ser Ala Leu Val Ala Met His Gin Ala Arg 
85 90 95 

Gin Ser He Leu Leu Gly Glu Ser Ser Val Ala Leu Val Gly Gly He 
100 105 110 
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Ser Leu Leu Val Ala Leu Asp Ser Met Val Ala Met Ser Arg Phe Gly 
115 120 125 

Ala Met Ala Pro Asp Gly Arg Cys Lys Ala Phe Asp Ser Arg Ala Asn 
130 135 140 

Gly Tyr Val Arg Gly Glu Gly Gly Gly Val Val Val Leu Lys Pro Leu 
145 150 155 160 

Ser Arg Ala Leu Ala Asp Gly Asn Pro Val Tyr Cys Val Leu Arg Gly 
165 170 175 

Ser Ala Val Asn Asn Asp Gly Phe Ser Asn Gly Leu Thr Ala Pro Ser 
180 185 190 

Pro Ala Ala Gin Glu Gin Val Leu Arg Asp Ala Tyr Ala Asn Ala Gly 
195 200 205 



Val Asp Pro Ala Gin Val Asp Tyr Val Glu Thr His Gly Thr Gly 
210 215 220 



<210> 48 
<211> 211 
<212> PRT 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :organisme du sol 
<400> 48 

Ser Cys Trp Glu Ala Leu Glu His Ala Gly Tyr Asp Thr Ala Arg Tyr 
15 10 15 



Pro Gly Arg He Gly Leu Trp Ala 
20 

Leu Thr Asn Leu Met Asn Asn Arg 
35 40 



Gly Ala Gly Phe Asn Ser Tyr Leu 
25 30 

Ala Phe Leu Glu Ser Val Gly Met 
45 



Tyr Gin He Phe Leu Ser Asn Asp Lys Asp Phe He Ala Thr Arg Thr 

50 55 60 

Ala Tyr Lys Leu Asn Leu Arg Gly Pro Ala Met Ala Val Gly Thr Ala 

65 70 75 80 



Cys Ser Thr Ser Leu Val Ala Val His Glu Ala Cys Gin Ala Leu Arg 
85 90 95 
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Leu Gly Glu Cys Asp Met Ala Leu Ala Gly Ala Ala Ser Val Ser Thr 
100 105 110 

Pro Leu Arg Glu Gly Tyr Leu Tyr Gin Glu Gly Met lie Met Ser Arg 
115 120 * 125 

Asp Gly Val Cys Arg Pro Phe Asp Ala Asp Ala Asp Gly Thr Val Leu 
130 135 140 

Gly Asn Gly Val Ala Val Val Val Leu Lys Arg Leu Asp Glu Ala Leu 
145 150 155 160 

Arg Asp Gly Asp Thr Val Tyr Ala Val He Arg Gly Thr Ala Val Asn 
165 170 175 

Asn Asp Gly Ser Val Lys He Gly Phe Thr Ala Pro Ser Ala Glu Gly 
180 185 190 

Gin Ser Arg Val Val Arg Asp Ala Leu Arg Ala Ala Ala Val Pro Ala 
195 200 205 

Glu Ser Val 
210 



<210> 49 
<211> 229 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 49 

Pro Gin Gin Arg Leu Phe Leu Glu Cys Ala Trp Glu Ala Met Glu Asn 
1 5 10 15 

Ala Gly Tyr Ala Ala Arg Ser Tyr Lys Gly Ser He Gly Val Phe Ala 
20 25 30 

Gly Cys Gly Val Asn Thr Tyr Leu Leu Asn Asn Leu Ala Thr Ala Glu 
35 40 45 

Pro Phe Asp Phe Ser Arg Pro Ser Ala Tyr Gin Leu Leu Thr Ala Asn 
50 55 60 



Asp Lys Asp Phe Leu Ala Thr Arg Val Ser Tyr Lys Leu Asn Leu Arg 
65 70 75 80 
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Gly Pro Ser Leu Thr Val Gin Thr Ala Cys Ser Thr Ser Leu Val Ser 
85 90 95 

Val Val Met Ala Cys Glu Ser Leu Gin Arg Gly Ala Ser Asp lie Ala 
100 105 110 

Leu Ala Gly Gly Val Ala lie Asn Val Pro Gin Ser Val Gly Tyr Leu 
115 120 125 

His Gin Pro Gly Met lie Leu Ser Pro Asp Gly Arg Cys Arg Ala Phe 
130 135 140 

Asp Glu Ser Ala Gin Gly Thr Val Pro Gly Asn Gly Ala Gly Val Val 
145 150 155 160 

Val Leu Lys Arg Leu Ser Arg Ala Leu Ala Asp Gly Asp Thr He Tyr 
165 170 175 

Ala Val He Arg Gly Ala Ala He Asn Asn Asp Gly Ala Glu Arg Met 
180 185 ~ * 190 

Gly Phe Thr Ala Pro Gly Val Asp Gly Gin Thr Arg Leu He Arg Arg 
195 200 205 

Thr Gin Glu Met Ala Gly Val Lys Pro Glu Ser He Gly Tyr Met Asp 
210 215 220 



Thr His Gly Thr Gly 
225 



<210> 50 
<211> 223 
<212> PRT 

<213> Organime. Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 50 

Pro Gin Gin Arg Leu Phe Leu Glu Val Ala Trp Glu Ala Leu Glu Arg 
15 10 15 

Ala Gly Arg Pro Pro Asp Ser Leu Ala Gly Ser Asp Thr Gly Val Phe 
20 25 30 

He Gly He Ser Thr Asp Asp Tyr Ser Arg Leu Lys Pro Thr Asp Pro 
35 40 45 



PCT/FR00/03311 



Ala Leu He Asp Ala Tyr Thr Gly Thr Gly Thr Ala Phe Ser Thr Ala 
50 55 60 

Ala Gly Arg He Ser Tyr Leu Leu Gly Leu Gin Gly Pro Asn Phe Pro 
65 70 75 80 

Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala Val His Leu Ala Cys 



Arg Ser Leu Gin Ser Arg Glu Cys Ser Met Ala Leu Ala Gly Gly Val 
100 105 110 

Asn Leu He Leu Ala Pro Glu Ser Thr He Tyr Phe Cys Arg Leu Arg 
115 120 125 

Ala Met Ala Ala Asp Gly Arg Cys Lys Ser Phe Ala Ala Ser Ala Asp 
130 135 140 

Gly Tyr Gly Arg Gly Glu Gly Cys Gly Met Leu Val Leu Lys Arg Leu 
145 150 155 160 

Ser Asp Ala Thr Arg Asp Gly Asp Arg He Leu Ala Leu He Arg Gly 
165 170 175 

Ser Ala Val Asn His Gly Gly Arg Ser Asn Gly Leu Thr Ala Pro Asn 
180 185 190 

Gly Pro Ala Gin Glu Ala Val lie Arg Ala Ala Leu Lys Asn Ala Gly 
195 200 205 



Met Ala Pro Ala Asp Val Asp Tyr Val Asp Thr His Gly Thr Gly 
210 215 220 



<210> 51 
<211> 252 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisrae du sol 
<400> 51 

Pro Gin Glu Arg Val Phe Leu Glu Arg He Asp Gly Phe Asp Ala Glu 
1 5 10 15 



Phe Phe Gly He Ser Pro Arg Glu Ala Leu Asn Met Asp Pro Gin Gin 
20 25 30 
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Arg Leu Leu Leu Glu Val Cys Trp Glu Ala Ala Glu Asp Ala Gly He 
35 40 45 

Ser Pro Gly Pro Leu Ala Gly Ser Ala Thr Gly Val Phe Ala Gly Ser 
50 55 60 

Cys Ala Gin Asp Phe Gly Leu Phe Gin Tyr Ala Asp Pro Ala Arg He 
65 70 75 80 

Gly Ala Trp Ser Gly Ser Gly Val Ala His Ser Met Leu Ala Asn Arg 
85 90 95 

He Ser Tyr Leu Leu Asp Leu Arg Gly Pro Ser Met Ala Val Asp Thr 
100 105 110 

Ala Cys Ser Ser Ala Leu Val Ala Val His Leu Ala Cys Gin Ser Leu 
115 120 125 

Arg Arg Arg Glu Cys Asp Ala Ala Phe Ala Gly Gly Val Asn Leu He 
130 135 140 

Leu Thr Pro Glu Gly Met He Ala Leu Ser Lys Ala Arg Met Leu Ala 
145 150 155 160 

Pro Asp Gly Arg Cys Lys Thr Phe Asp Ala Ala Ala Asp Gly Tyr Val 
165 170 175 

Arg Gly Glu Gly Cys Gly He Val Leu Leu Lys Arg Leu Ser Asp Ala 
180 185 190 

Leu Ala Asp Gly Asp Ala He Cys Ala Val He Arg Gly Ser Ala He 
195 200 . 205 

Asn Gin Asp Gly Arg Ser Asn Gly He Thr Ala Pro Asn Leu Gin Ala 
210 215 220 

Gin Lys Ala Val Leu Gin Glu Ala Val Ala Asn Ala His He Asp Pro 
225 230 235 240 

Ser His Val Ser Leu He Asp Thr His Gly Thr Gly 
245 250 



<210> 52 
<211> 234 
<212> PRT 

<213> Organime Inconnu 
<220> 



PCI7FR00/03311 



<223> Origine de la sequence :organisme du sol 
<400> 52 

Pro Gin Gin Arg Val Phe Leu Glu Cys Ala Trp Glu Ala Val Glu Ser 
15 10 15 

Ala Gly Tyr Asp Pro Glu Lys Tyr Pro Gly Leu He Gly Val Phe Ala 
20 25 30 

Gly Ala Ser He Asn Ser Tyr Phe Leu Tyr Asn Leu Ala His Asn Arg 
35 40 45 

Glu Phe Val Ala Arg Met Ala Gly Glu Tyr Gin Val Gly Glu Tyr Gin 
50 55 60 

Thr He Leu Gly Asn Asp Lys Asp Tyr Leu Pro Thr Arg Val Ser Tyr 
65 70 75 80 

Lys Leu Asn Leu Arg Gly Pro Ser Leu Ala Val Gin Ser Ala Cys Ser 
85 90 95 

Thr Gly Leu Val Ala Val Cys Gin Ala He Gin Asn Leu Gin Thr Tyr 
100 105 110 

Gin Cys Asp Met Ala Leu Ala Gly Gly He Ser He Ser Phe Pro Gin 
115 120 125 

Lys Arg Asp Tyr Arg Phe Thr Asp Glu Gly Met Val Ser Arg Asp Gly 
130 135 140 

His Cys Arg Pro Phe Asp Ala Ser Ala Gin Gly Thr Val Phe Gly Asn 
145 150 155 160 

Gly Ala Gly Val Val Leu Met Lys Arg Leu Ala Asp Ala Val Thr Asp 
165 170 175 

Arg Asp Thr He Leu Ala Val He Arg Gly Ala Ala Val Asn Asn Asp 
180 185 190 

Gly Gly Val Lys Met Gly Tyr Thr Ala Pro Ser Ala Glu Gly Gin Ala 
195 200 205 

Glu Ala He Thr Leu Ala Leu Ala Leu Ala Gly Val Ser Pro Glu Thr 
210 215 220 

He Thr Cys Met Asp Thr His Gly Thr Gly 
225 230 



PCT/FR00/03311 



<210> 53 
<211> 226 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 53 

Pro Gin Gin Arg Val Phe Leu Glu Cys Ala Trp Ala Ala Leu Glu Arg 
1 5 10 15 

Arg Arg He Ser Gly Arg His Leu Pro Arg Cys Pro Ser Ala Val Tyr 
20 25 30 

Ala Ser Ser Gly Phe Asn Thr Tyr Leu Leu Asn Leu His Ala Asn Ala 
35 40 45 

Ala Val Arg Gin Ser He Ser Pro Phe Glu Leu Phe Val Ala Asn Asp 
50 55 60 

Lys Asp Phe Leu Ala Thr Arg Thr Ala Tyr Lys Leu Asn Leu Arg Gly 



Pro Ala Met Thr Val Gin Thr Ala Cys Ser Ser Ser Leu Val Ala Val 
85 90 95 

His Val Ala Ala Gin Ser Leu Leu Ala Gly Glu Cys Asp He Ala Leu 
100 105 110 

Ala Gly Gly He Thr Val Ser Arg Ser His Gly Tyr Val Ala Arg Glu 
115 120 125 

Gly Gly He Leu Ser Pro Asp Gly His Cys Arg Ala Phe Asp Ala Asp 
130 135 140 

Ala Gly Gly Thr Val Pro Gly Ser Gly Val Gly Val Val Val Leu Lys 
145 150 155 160 

Arg Leu Glu Asp Ala Leu Ala Asp Gly Asp Thr He Asp Ala Val He 
165 170 175 

He Gly Ser Ala He Asn Asn Asp Gly Ala Leu Lys Ala Ser Phe Thr 
180 185 190 

Ala Pro Gin Val Asp Ser Gin Ala Leu Val He Ser Glu Ala His Ala 
195 200 205 

Ala Ala Gly He Ser Ala Asp Ser He Gly Tyr Met Asp Thr His Gly 
210 215 220 
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Thr Gly 
225 



<210> 54 
<211> 223 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 54 

Pro Gin Gin Arg Leu Phe Leu Glu Leu Thr Trp Glu Ala Leu Glu Asp 
1 5 io 15 

Ala Gly He Pro Pro Ser Thr He Ala Gly Thr Asn Val Gly Val Phe 
20 25 30 

Met Gly Ala Ser Gin Ala Asp Tyr Gly His Lys Phe Phe Ser Asp His 
35 40 45 

Ala Val Ala Asp Ser His Phe Ala Thr Gly Thr Ser Leu Ala Val Val 
50 55 60 

Ala Asn Arg He Ser Tyr He Tyr Asp Leu Arg Gly Pro Ser Leu Thr 
65 70 75 so 

Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala Leu His Gin Ala Val 
85 90 95 

Glu Ala Leu Arg Ser Gly Arg He Glu Thr Ala He Val Gly Gly He 
100 105 no 

Asn Val He Ala Ser Pro Ala Ser Phe He Ala Phe Ser Gin Ala Ser 
H5 120 125 

Met Leu Ser Pro Thr Gly Leu Cys Gin Ala Phe Ser Ala Lys Ala Asp 
130 135 140 

Gly Phe Val Arg Gly Glu Gly Gly Thr Val Phe Val Leu Arg Lys Ala 
145 150 155 160 

Ala His Ala His Gly Ser Arg Asn Pro Val Arg Gly Leu He Leu Ala 
165 170 175 

Thr Asp Val Asn Ser Asp Gly Arg Thr Asn Gly He Ser Leu Pro Ser 
180 185 190 
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Ala Glu Ala Gin Glu Val Leu Leu Gin Arg Val Tyr Ser Arg Ala Ser 
195 200 205 

He Asp Pro Asn Arg Leu Ala Phe Val Asp Thr His Gly Thr Gly 
210 215 220 



<210> 55 
<211> 254 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 55 

Pro Gin Gin Arg Val Phe Leu Asp Gly He Asp Arg Phe Asp Pro Arg 



His Phe Ala He Thr Pro Arg Glu Ala He Ser Met Asp Pro Gin Gin 



Arg Leu Leu Leu Glu Val Thr Trp Glu Ala Leu Glu Arg Ala Gly Val 
35 40 45 

Ala Pro Asp Arg Leu Thr Gly Ser Asp Thr Gly Val Phe He Gly He 



Ser Thr Asn Asp Tyr Gly Gin He Leu Leu Arg Ala Ser Asp Gin He 
65 70 75 80 

Asp Pro Gly Met Tyr Phe Gly Thr Gly Asn Leu Leu Asn Ala Ala Ala 



Gly Arg Leu Ser Tyr Val Leu Gly Leu Gin Gly Pro Ser Met Ala Val 
100 105 110 

Asp Thr Ala Cys Pro Ser Ser Leu Val Ala He His Leu Ala Cys Gin 
115 120 125 

Ser Leu Arg Asn Arg Glu Cys Arg Met Ala Leu Ala Gly Gly Ala Asn 
130 135 140 

Leu Val Leu Val Pro Glu Val Thr Val Asn Cys Cys Arg Ala Lys Met 
145 150 155 160 



Leu Ala Pro Asp Gly Arg Cys Lys Thr 
165 



Phe Asp Ala Ala Ala Asp Gly 
170 175 
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Tyr Val Arg Gly Glu Gly Ala Ala Val lie Val Leu Lys Arg Leu Ser 
180 185 190 

Asp Ala Leu Ala Asp Gly Asp Pro He Val Ala Leu He Arg Gly Ser 
195 200 205 

Ala Val Asn Gin Asp Gly Arg Ser Gly Gly Phe Thr Ala Pro Asn Glu 
210 215 220 

Leu Ala Gin Gin Ala Val He Arg Thr Ala Leu Ala Ala Ala Gly Val 
225 230 235 240 

Ala Ala Ser Asp He Gly Tyr Val Asp Thr His Gly Thr Gly 
245 250 



<210> 56 
<211> 254 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 56 

Pro Gin Gin Arg Val Phe Leu Asp Gly He Asp Arg Phe Asp Pro Gin 
15 10 15 

Phe Phe Gly He Ala Pro Arg Glu Ala Ala Gly He Asp Pro Gin Gin 
20 25 30 

Arg Leu Leu Leu Glu Thr Thr Trp Glu Ala Leu Glu Asp Ala Gly Thr 
35 40 45 

Ser Pro Glu Lys Leu Gin Gly Thr Pro Ala Gly Val Phe Val Gly He 
50 55 60 

Asn Ser He Asp Tyr Ala Thr Leu Gin Leu Gin Asn Cys Asp Leu Ala 
65 70 75 80 

Ser He Asp Ala Tyr Ser Leu Ser Gly Ser Ala His Ser He Ala Ala 
85 90 95 

Gly Arg Leu Ala Tyr Val Leu Gly Leu Gin Gly Pro Ala Met Ala Val 
100 105 110 



Asp Thr Ala Cys Ser Ser Ser Leu Val Ala He His Leu Ala Cys Gin 
115 120 125 



PCT/FROO/03311 



Ser Leu Arg Asn Asp Asp Cys Arg Val Ala Val Ala Gly Gly Val His 
130 135 140 

Val Thr Leu Thr Pro He Asn Met Val Val Phe Ser Lys Leu Arg Met 
145 150 155 160 

Leu Ala Ala Asp Gly Lys Cys Lys Thr Phe Asp Gly Arg Gly Asp Gly 
165 170 " 175 

Phe Val Glu Gly Glu Gly Cys Ala Val He Val Leu Lys Arg Leu Ser 
180 185 190 

His Ala Leu Ala Asp Lys Asp Arg He Leu Ala Leu Val Arg Gly Ser 
195 200 205 

Ala Val Asn Gin Asp Gly Ala Ser Ser Gly Leu Thr Ala Pro Asn Gly 
210 215 220 

Pro Ala Gin Glu Ala Val He Arg Ala Ala Leu Lys Arg Ala Gly Val 
225 230 235 240 

Gin Pro Ala Glu Val Gly Tyr Val Asp Thr His Gly Thr Gly 
245 250 



<210> 57 
<211> 222 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 57 

Pro Gin Glu Arg Val Leu Leu Glu Ser Ser Trp His Ala Leu Glu Asp 
1 5 10 15 

Ala Gly Tyr Ala Gly Glu Ser He Ala Gly Ala Arg Cys Gly Val Tyr 
20 25 30 

Met Gly Phe Asn Gly Gly Asp Tyr Gly Asp Leu Leu Tyr Gly Gin Pro 



Ser Leu Pro Pro His Ala Met Trp Gly Asn Ala Ala Ser Val Leu Ser 
50 55 60 

Ala Arg He Ala Tyr Tyr Leu Asp Leu Gin Gly Pro Ala He Thr Leu 
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Asp Thr Ala Cys Ser Ser Ser Leu Val Ala Val His Leu Ala Cys Gin 
85 90 95 

Gly Leu Trp Thr Gly Glu Thr Asp Leu Ala Leu Ala Gly Gly Val Trp 
100 105 110 

He Gin Cys Thr Pro Gly Phe Leu He Ser Ser Ser Arg Ala Gly Met 
115 120 125 

Leu Ser Pro Thr Gly Gin Cys Arg Ala Phe Gly Ala Gly Ala Asp Gly 
130 135 140 

Phe Val Pro Ser Glu Gly Val Gly Val Val Val Leu Lys Arg Leu Gin 
145 150 155 160 

Asp Ala Leu Asp Ala Gly Asp His Xaa Tyr Gly Val He Arg Gly Ser 
165 170 175 

Ala He Asn Gin Asp Gly Ala Ser Asn Gly He Thr Ala Pro Ser Ala 
180 185 190 

Ala Ala Gin Glu Arg Leu Gin Arg His Val Tyr Asp Ser Phe Gly He 
195 200 205 

Asp Ala Ser Arg Leu Gin Met He Glu Ala His Gly Thr Gly 
210 215 220 



<210> 58 
<211> 223 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 58 

Pro Gin Glu Arg Val Leu Leu 
1 5 

Ala Gly Gin Asp Val Asp Arg 
20 

Val Gly He Ser Ser Asn Asp 
35 



Glu Val Thr Trp Glu Ala Leu Glu Asp 
10 15 

Leu Ala Gly Arg Pro Val Gly Val Phe 
25 30 

Tyr Gly Gin Leu Gin Asn Gly Asp Pro 
40 45 



Ala Asp Val Asp Ala Tyr Val 
50 55 



Gly Thr 



Gly Asn Ala Leu Ser He Ala 
60 
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Ala Asn Arg Leu Ser Tyr Thr Phe Asp Phe Arg Gly Pro Ser Leu Ala 
65 70 75 80 



Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala He His Leu Ala Cys 



Gin Ser Val Arg Arg Gly Glu Ala Glu Leu Ala Val Ala Ala Gly Val 
100 105 110 



Asn Leu He Leu Thr Pro Gly Leu Thr Val Asn Phe Thr Arg Ala Gly 
115 120 125 



Met Met Ala Pro Asp Gly Arg Cys Lys Thr Phe Asp Ala Ala Ala Asn 
130 135 140 



Gly Tyr Val Arg Gly Glu Gly Ala Gly Val Val Val Leu Lys Pro Leu 
145 150 155 ~ 160 



Ala Gin Ala He Ala Asp Gly Asp Pro He Tyr Ala He Val Arg Gly 
165 170 175 



Ser Ala Val Asn Gin Asp Gly Arg Ser Asn Gly Leu Thr Ala Pro Asn 
180 185 190 



Arg Gin Ala Gin Glu Val Val Leu Arg Ala Ala Tyr Arg Asp Ala Gly 
195 200 205 



He Ser Pro Ala Asp Val Asp Ala Val Glu Ala His Gly Thr Gly 
210 215 220 



<210> 59 
<211> 235 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisrae du sol 
<400> 59 

Pro Gin Gin Arg Val Phe Leu Glu Asp Ala Thr Glu Val Asp Val Asp 
1 5 10 15 

Ala Leu Ser Asp Gly Glu Asp Val Val He Ala Gly He Met Gin His 
20 25 30 



He Glu Glu Ala Gly He His Ser Gly Asp Ser Ser Cys Val Leu Pro 
35 40 45 



PCT/FR00/03311 



Pro Val Asp He Pro Pro Lys Ala Leu Gin Thr He Arg Asp His Thr 
50 55 60 

Phe Lys Leu Ala Arg Ala Leu Lys Val He Gly Leu Met Asn Val Gin 
65 70 75 80 

Tyr Ala lie Gin Arg Asp Lys Val Tyr Val He Glu Val Asn Pro Arg 
85 90 95 

Ala Ser Arg Thr Val Pro Tyr Val Ser Lys Ala Thr Gly Val Pro Leu 
100 105 110 

Ala Lys Val Ala Ser Arg Leu Met Thr Gly Arg Lys Leu His Glu Leu 
115 120 125 

Leu Pro Glu Gly Val Glu Arg Gly Trp He Thr Thr Ala Gly Glu Asn 
130 135 140 

Phe Tyr Val Lys Ser Pro Val Phe Pro Trp Gly Lys Phe Pro Gly Val 
145 ISO 155 160 

Asp Thr Val Leu Gly Pro Glu Met Lys Ser Thr Gly Glu Val Met Gly 
165 170 175 

Val Ala Asp Asn Phe Gly Glu Ala Phe Ala Lys Ala Gin He Ala Ala 
180 185 190 

Gly Thr Tyr Leu Pro Thr Glu Gly Thr Val Phe He Ser Val Asn Asp 
195 200 205 

Arg Asp Lys Gly Asn Val He Gin Leu Ala Gin Arg Phe Ser Glu Leu 
210 215 220 

Gly Phe Gly He Val Asp Thr His Gly Thr Gly 
225 230 235 



<210> 60 
<211> 1269 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rOrganisme du sol 
<400> 60 

taacaggaag aagcttgctt ctttgctgac gagtggcgga cgggtgagta acacgtggga 60 
acctgcctta tggttcggga taacgtctgg aaacggacgc taacaccgga tgtgcccttc 120 
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gggggaaagt ttacgccatg agaggggccc 
gcccaccaag ccgacgatcg gtagctggtc 
gacacggccc agactcctac gggaggcagc 
ctgatccagc aatgccgcgt gagtgatgaa 
cgacgatgat gacggtagcg tgagaagaag 
taatacgaag ggggcgagcg ttgttcggaa 
cgatcagtca gatgtgaaag ccccgggctc 
cttgagttcc ggagaggatg gtggaattcc 
gaagaacacc ggtggcgaag gcggccatct 
gtggggagca aacaggatta gataccctgg 
cgctggggtg catgcacttc ggtgtcgccg 
acggccgcaa ggttaaaact caaaggaatt. 
tggtttaatt cgaagcaacg cgcagaacct 
cgagagattg gaccttcagt tcggctggat 
ctcgtgtcgt gagatgttgg gttaagtccc 
catcattcag ttgggcactc tggtggaact 
gacgtcaagt cctcatggcc cttatgggtt 
agtgggacgc gaagtcgcaa gatggagcaa 
actctgcaac tcgggtgcat gaagttggaa 
gtgaatacg 



gcgtccgatt aggtagttgg tggggtaatg 180 
tgagaggatg atcagccaca ctgggactga 240 
agtggggaat attggacaat gggggcaacc 300 
ggccttaggg ttgtaaagct ctttcgcacg 360 
ccccggctaa cttcgtgcca gcagccgcgg 420 
ttactgggcg taaagggcgc gtaggcggcc 480 
aacctgggaa ctgcatttga tactgtcggg 540 
cagtgtagag gtgaaattcg tagatattgg 600 
ggacggacac tgacgctgag gcgcgaaagc 660 
tagtccacgc cgtaaacgat gaatgctaga 720 
ctaacgcatt aagcattccg cctggggagt 780 
gacgggggcc cgcacaagcg gtggagcatg 840 
taccaaccct tgacatgtcc attgccggtc 900 
ggaacacagg tgctgcatgg ctgtcgtcag 960 
gcaacgagcg caacccctac cgccagttgc 1020 
gccggtgaca agccggagga aggcggggat 1080 
gggctacaca cgtgctacaa tagcggtgac 1140 
atccccaaaa gccgtctcag ttcggattgc 1200 
tcgctagtaa tcgcggatca gcacgccgcg 1260 
1269 



<210> 61 
<211> 1500 
<212> AON 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 61 

ttttaaaacg acggccagtg aattgtaata cgactcacta tagggcgaat tgggccctct 60 
agatgcatgc tcgagcggcc gccagtgtga tggatatctg cagaattcgc ccttcaggcc 120 
taacacatgc aagtcgaacg agggcttcgg ccctagtggc gcacgggtga gtaacacgtg 180 
ggaacctgcc ttatggttcg ggataacgtc tggaaacgga cgctaacacc ggatgtgccc 24 0 
ttcgggggaa agtttacgcc atgagagggg cccgcgtccg attaggtagt tggtggggta 300 
atggcccacc aagccgacga tcggtagctg gtctgagagg atgatcagcc acactgggac 360 
tgagacacgg cccagactcc tacgggaggc agcagtgggg aatattggac . aatgggggca 420 
accctgatcc agcaatgccg cgtgagtgat gaaggcctta gggttgtaaa gctctttcgc 480 
acgcgacgat gatgacggta gcgtgagaag aagccccggc taacttcgtg ccagcagccg 540 
cggtaatacg aagggggcga gcgttgttcg gaattactgg gcgtaaaggg cgcgtaggcg 600 
gcccgatcag tcagatgtga aagccccggg ctcaacctgg gaactgcatt tgatactgtc 660 
gggcttgagt tccggagagg atggtggaat tcccagtgta gaggtgaaat tcgtagatat 720 
tgggaagaac accggtggcg aaggcggcca tctggacgga cactgacgct gaggcgcgaa 780 
agcgtgggga gcaaacagga ttagataccc tggtagtcca cgccgtaaac gatgaatgct 840 
agacgctggg gtgcatgcac ttcggtgtcg ccgctaacgc attaagcatt ccgcctgggg 900 
agtacggccg caaggttaaa actcaaagga attgacgggg gcccgcacaa gcggtggagc 960 
atgtggttta attcgaagca acgcgcagaa ccttaccaac ccttgacatg tccattgccg 1020 
gtccgagaga ttggaccttc agttcggctg gatggaacac aggtgctgca tggctgtcgt 1080 
cagctcgtgt cgtgagatgt tgggttaagt cccgcaacga gcgcaacccc taccgccagt 1140 



WO 01/40497 



34 



PCT7FRO0/O3311 



t'gccatcatt cagttgggca ctctggtgga 
gatgacgtca agtcctcatg gcccttatgg 
gacagtggga cgcgaagtcg caagatggag 
tgcactctgc aactcgggtg catgaagttg 
gcggtgaata cgttcccggg ccttgtacac 
cggccgttac tagtggatcc gagctcggta 



actgccggtg acaagccgga ggaaggcggg 1200 
gttgggctac acacgtgcta caatggcggt 1260 
caaatcccca aaagccgtct cagttcggat 1320 
gaatcgctag taatcgcgga tcagcacgcc 1380 
accgcccaag ggcgaattcc agcacactgg 1440 
ccaagcttgg cgtaatcatg gtcatagctg 1500 



<210> 62 
<211> 1366 
<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :Organisme du sol 



<400> 62 

acgacggcca gtgaattgta atacgactca 
tgctcgagcg gccgccagtg tgatggatat 
tgcaagtcga acgaaggctt cggccttagt 
gcctttcggt tcggaataac gtctggaaac 
gaaagttcac gccgagagag gggcccgcgt 
accaagcctt cgatccgtag ctggtctgag 
cggcccagac tcctacggga ggcagcagtg 
tccagcaatg ccgcgtgagt gatgaaggcc 
gatgatgacg gtagcgtgag aagaagcccc 
acgaaggggg ctagcgttgt tcggaattac 
tagtcagaag tgaaagcccc gggctcaacc 
agttccggag aggatggtgg aattcccagt 
aacaccggtg gcgaaggcgg ccatctggac 
ggagcaaaca ggattagata ccctggtagt 
ggggtgcatg cacttcggtg tcgccgctaa 
ccgcaaggtt aaaactcaaa ggaattgacg 
ttaattcgaa gcaacgcgca gaaccttacc 
agatgaggtc cttcagttcg gctgggtgga 
gtgtcgtgag atgttgggtt aagtcccgca 
cattcagttg ggcactctgg tggaaccgcc 
gtcaagtcct catggccctt atgggttggg 
gggaagcgaa gtcgcgagat ggagcaaatc 
ctgcaactcg agtgcgtgaa gttggaatcg 



ctatagggcg aattgggccc tctagatgca 60 
ctgcagaatt cgcccttcag gcctaacaca 120 
ggcgcacggg tgagtaacac gtgggaacct 180 
ggacgctaac accggatacg cccttcgggg 240 
cggattaggt agttggtgag gtaatggctc 300 
aggatgatca gccacactgg gactgagaca 360 
gggaatattg gacaatgggc gcaagcctga 420 
ttagggttgt aaagctcttt cgcacgcgac 4 80 
ggctaacttc gtgccagcag ccgcggtaat 540 
tgggcgtaaa gggcgcgtag gcggcctgct 600 
tgggaatagc ttttgatact ggcaggcttg 660 
gtagaggtga aattcgtaga tattgggaag 720 
ggacactgac gctgaggcgc gaaagcgtgg 780 
ccacgccgta aacgatgaat gctagacgtc 840 
cgcattaagc attccgcctg gggagtacgg 900 
ggggcccgca caagcggtgg agcatgtggt 960 
aacccttgac atgtccatta tgggcttcag 1020 
acacaggtgc tgcatggctg tcgtcagctc 1080 
acgagcgcaa cccctaccgt cagttgccat 1140 
ggtgacaagc cggaggaagg cggggatgac 1200 
ctacacacgt gctacaatgg cggtgacagt 1260 
cccaaaagcc gtctcagttc ggatcgcact 1320 
ctagtaatcg cggatc 1366 



<210> 63 
<211> 1360 
<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :Organisrae du sol 
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<400> 63 

acagctatga ccatgattac gccaagcttg 
gccagtgtgc tggaattcgc ccttcaggcc 
ggagtggcag acgggtgagt aacgcgtggg 
gaaactggaa ttaataccgc atacgcccta 
cccgcgttgg attagctagt tggtggggta 
gtctgagagg atgatcagcc acattgggac 
agcagtgggg aatattggac aatgggcgca 
gaaggcctta gggttgtaaa gctctttcac 
aagccccggc taacttcgtg ccagcagccg 
gaattactgg gcgtaaagcg cacgtaggcg 
ctcaactctg gaactgcctt tgatactggg 
tccgagtgta gaggtgaaat tcgtagatat 
actggtccat tactgacgct gaggtgcgaa 
tggtagtcca cgccgtaaac gatgaatgtt 
cagctaacgc attaaacatt ccgcctgggg 
attgacgggg gcccgcacaa gcggtggagc 
ccttaccagc tcttgacatt cggggtttgg 
ggccccagaa caggtgctgc atggctgtcg 
tcccgcaacg agcgcaaccc tcgcccttag 
gactgccggt gataagccga gaggaaggtg 
gggctgggct acacacgtgc tacaatggtg 
agctaatctc caaaagccat ctcagttcgg 
tggaatcgct agtaatcgca gatcagcatg 



gtaccgagct cggatccact agtaacggcc 60 
taacacatgc aagtcgaacg ccccgcaagg 120 
aacataccct ttcctgcgga atagctccgg 180 
cgggggaaag atttatcggg gaaggattgg 240 
aaggcctacc aaggcgacga tccatagctg 300 
tgagacacgg cccaaactcc tacgggaggc 360 
agcctgatcc agccatgccg cgtgagtgat 420 
cggagaagat aatgacggta tccggagaag 480 
cggtaatacg aagggggcta gtgttgttcg 540 
gatatttaag tcaggggtga aatcccagag 600 
tatcttgagt atggaagagg taagtggaat 660 
tcggaggaac accagtggcg aaggcggctt 720 
agcgtgggga gcaaacagga ttagataccc 780 
agccgtcggg cagtatactg ttcggtggcg 840 
agtacggtcg caagattaaa actcaaagga 900 
atgtggttta attcgaagca acgcgcagaa 960 
gcagtggaga cattgtcctt cagttaggct 1020 
tcagctcgcg tcgtgagatg ttgggttaag 1080 
ttgccagcat ttagttgggc actctaaggg 1140 
gggacgacgt caagtcctca tggcccttac 1200 
gtgacagtgg gcagcgagac agcgatgtcg 1260 
attgcactct gcaactcgag tgcatgaagt 1320 
tgcggtgaat 1360 



<210> 64 

<211> 1288 

<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :Organisme du sol 



<400> 64 

tccaggaaac agctatgacc atgattacgc 
taacggccgc cagtgtgctg gaattcgccc 
ccgcaagggg agcggcagac gggtgagtaa 
aactccggga aactggagct aataccgtat 
tggatgagcc cgcgttggat tagctagttg 
catagctggt ctgagaggat gatcagccac 
cgggaggcag cagtggggaa tattggacaa 
gtgagtgatg aaggtcttag gattgtaaag 
ccggagaaga agccccggct aactttcgtg 
gcgttgttcg gaattactgg gcgtaaagcg 
aatcccagag ctcaactctg gaactgcctt 
taagtggaat tgcgagtgta gaggtgaaat 
aaggcggctt actggtccat tactgacgct 
ttagataccc tggtagtcca cgccgtaaac 
gtcggtggcg cagctaacgc attaaacatt 



caagcttggt accgagctcg gatccactag 60 
ttcaggccta acacatgcaa gtcgagcgcc 120 
cgcgtgggaa tctacccatc cctacggaac 180 
acgccctttg ggggaaagat ttatcgggga 240 
gtggggtaaa ggcctaccaa ggcgacgatc 300 
attgggactg agacacggcc caaactccta 360 
tgggcgcaag cctgatccag ccatgcccgc 420 
ctctttcacc ggagaagata atgacggtat 480 
ccagcagccg cggtaatacg aagggggcta 540 
cacgtaggcg gatatttaag tcaggggtga 600 
tgatactggg tatcttgagt atggaagagg 660 
tcgtagatat tcgcaggaac accagtggcg 720 
gaggtgcgaa agcgtgggga gcaaacagga 780 
gatgaatgtt agccgtcggc aagtttactt 840 
ccgcctgggg agtacggtcg caagattaaa 900 
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actcaaagga attgacgggg gcccgcacaa 

acgcgcagaa ccttaccagc ccttgacatg 

ttcggggacc gggacacagg tgctgcatgg 

gttaagtccc gcaacgagcg caaccctcgc 

taaggggact gccggtgata agccgagagg 

cttacgggct gggctacaca cgtgctacaa 

atcccgagct aatctccaaa agccatct 



gcggtggagc atgtggttta attcgaagca 960 
cccggacagc tacagagatg tagtgttccc 1020 
ctgtcgtcag ctcgtgtcgt gagatgttgg 1080 
ccttagttgc cagcattcag ttgggcactc 1140 
aagtggggat gacgtcaagt cctnatggcc 1200 
tgggtggtga cagtgggcag cgaaggaacg 1260 
1288 



<210> 65 

<211> 1386 

<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence rOrganisme du sol 



<400> 65 

cgacggccag tgaattgtaa tacgactcac 
gctcgagcgg ccgccagtgt gatggatatc 
gcaagtcgag cgggcgtagc aatacgtcag 
taccttttgg ttcggaacaa cacagggaaa 
ggaaagattt atcgccgaaa gattggcccg 
cctaccaagg cgacgatcag tagctggtct 
acacggccca aactcctacg ggaggcagca 
tgatccagcc atgccgcgtg agtgatgaag 
gaagataatg acggtaccgc aagaataagc 
aatacgaagg gggctagcgt tgctcggaat 
tttaagtcag gggtgaaatc ctggagctca 
ttgagttcgg gagaggtgag tggaactgcg 
aagaacacca gtgggcgaag gcggctcact 
gtggggagca aacaggatta gataccctgg 
cgttagtggg tttactcact agtggcgcag 
acggtcgcaa gattaaaact caaaggaatt 
tggtttaatt cgacgcaacg cgcagaacct 
gcagagatgt gaccttctct tcggagcctg 
tcgtgtcgtg agatgttggg ttaagtcccg 
accatttagt tgagcactct aaggagactg 
gacgtcaagt cctcatggcc cttacgggct 
aatgggacgc taaggggcaa cccttcgcaa 
ggctctgcaa ctcgagccca tgaagttgga 
ggtgaa 



tatagggcga attgggccct ctagatgcat 60 
tgcagaattc gcccttcagg cctaacacat 120 
cggcagacgg gtgagtaacg cgtgggaaca 180 
cttgtgctaa taccggataa gcccttacgg 240 
cgtctgatta gctagttggt agggtaatgg 300 
gagaggatga tcagccacat tgggactgag 360 
gtggggaata ttggacaatg ggcgcaagcc 420 
gccctagggt tgtaaagctc ttttgtgcgg 480 
cccggctaac ttcgtgccag cagccgcggt 540 
cactgggcgt aaagggtgcg taggcgggtc 600 
actccagaac tgcctttgat actgaagatc 660 
agtgtagagg tgaaattcgt agatattcgc 720 
ggcccgatac tgacgctgag gcacgaaagc 780 
tagtccacgc cgtaaacgat gaatgccagc 840 
ctaacgcttt aagcattccg cctggggagt 900 
gacgggggcc cgcacaagcg gtggagcatg 960 
taccagccct tgacatgtcc aggaccggtc 1020 
gagcacaggt gctgcatggc tgtcgtcagc 1080 
caacgagcgc aacccccgtc cttagttgct 1140 
ccggtgataa gccgcgagga aggtggggat 1200 
gggctacaca cgtgctacaa tggcggtgac 1260 
atctcaaaaa gcccgtctca gttcggattg. 1320 
atcgctagta atcgtggatc agcacgccac 1380 
1386 



<210> 66 
<211> 1223 
<212> ADN 

<213> Organime Inconnu 



<220> 
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<223> Origine de la sequence :Or< 
<400> 66 

agcggcagag ggtgagtaac gcgtgggaat 
actggagcta ataccgtata cgtccttcgg 
gcgttggatt agctagttgg tggggtaatg 
tgagaggatg atcagccaca ctgggactga 
agtggggaat attggacaat gggcgaaagc 
ggccctaggg ttgtaaagct ctttcaacgg 
ccccggctaa cttcgtgcca gcagccgcgg 
ttactgggcg taaagcgcac gtaggcggac 
aaccccggaa ctgcctttga tactggtagt 
gagtgtagag gtgaaattcg tagatattcg 
ggtccggtac tgacgctgag gtgcgaaagc 
tagtccacgc cgtaaacgat ggaagctagc 
ctaacgcatt aagcttcccg cctggggagt 
gacgggggcc cgcacaagcg gtggagcatg 
taccagccct tgacatcccg gtcgcggtta 
ccggtgacag gtgctgcatg gctgtcgtca 
cgcaacgagc gcaaccctcg cccttagttg 
tgccggtgat aagccgagag gaaggtgggg 
ctgggctaca cacgtgctac aatggtggtg 
taatctccaa aagccatctc agttcggatt 
aatcgctagt aatcgcggat cag 



du sol 



ctacccatct ctacggaaca actccgggaa 60 
gagaaagatt tatcggagat ggatgagccc 120 
gcctaccaag gcgacgatcc atagctggtc 180 
gacacggccc agactcctac gggaggcagc 240 
ccgatccagc catgccgcgt gagtgatgaa 300 
tgaggataat gacggtaacc gtagaagaag 360 
taatacgaag ggggctagcg ttgttcggaa 420 
tattaagtca ggggtgaaat cccggggctc 480 
ctcgagtccg gaagaggtga gtggaattcc 540 
gaggaacacc agtggcgaag gcggctcact 600 
gtggggagca aacaggatta gataccctgg 660 
cgttggcaag tttacttgtc ggtggcgcag 720 
acggtcgcaa gattaaaact caaaggaatt 780 
tggtttaatt cgaagcaacg cgcagaacct 840 
ccagagatgg tatccttcag ttcggctgga 900 
gctcgtgtcg tgagatgttg ggttaagtcc 960 
ccagcattca gttgggcact ctaaggggac 1020 
atgacgtcaa gtcctcatgg cccttacggg 1080 
acagtgggca gcgagaccgc gaggtcgagc 1140 
gcactctgca actcgagtgc atgaagttgg 1200 
1223 



<210> 67 
<211> 1237 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 67 

cccgcagggg agtggcagag ggtgagtaac gcgtgggaat ctaccctttt ctacggaaca 60 
actgagggaa acttcagcta ataccgtata cggccgagag gcgaaagatt tatcggagaa 120 
ggatgagccc gcgttggatt agctagttgg tggggtaaag gcctaccaag gcgacgatcc 180 
atagctggtc tgagaggatg atcagccaca ctgggactga gacacggccc agactcctac 240 
gggaggcagc agtggggaat attggacaat gggcgcaagc ctgatccagc catgccgcgt 300 
gagtgatgaa ggccctaggg ttgtaaagct ctttcaccgg tgaagataat gacggtaacc 360 
ggagaagaag ccccggctaa cttcgtgcca gcagccgcgg taatacgaag ggggctagcg 420 
ttgttcggat ttactgggcg taaagcgcac gtaggcggac tattaagtca ggggtgaaat 480 
cccggggctc aaccccggaa ctgcctttga tactggtagt cttgagttcg aaagaggtga 540 
gtggaattcc gagtgtagag gtgaaattcg tagatattcg gaggaacacc agtggcgaag 600 
gcggctcact ggctcgatac tgacgctgag gtgcgaaagc gtggggagca aacaggatta 660 
gataccctgg tagtccacgc cgtaaactat gagagctagg cgtcgggcag tatactgttc 720 
ggtggcgcag ctaacgcatt aagctcttcg cctggggagt acggtcgcaa gattaaaact 780 
caaaggaatt gacgggggcc cgcacaagcg gtggagcatg tggtttaatt cgaagcaacg 840 
cgcagaacct taccagccct tgacatcccg atcgcggtta ccagagatgg tatccttcag 900 
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ttaggctgga tcggtgacag gtgctgcatg gctgtcgtca gctcgtgtcg tgagatgttg 960 
ggttaagtcc cgcaacgagc gcaaccctcg cccttagttg ccatcattca gttgggcact 1020 
ctaaggggac tgccggtgat aagccgagag gaaggtgggg atgacgtcaa gtcctcatgg 1080 
cccttacggg ctgggctaca cacgtgctac aatggtggcg acagtgggca gcgagaccgc 1140 
gaggtcgagc taatctccaa aagccatctc agttcggatt gcactctgca actcgagtgc 1200 
atgaagttgg aatcgctagt aatcgtggat cagaatg 1237 



<210> 68 
<211> 1346 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisrae du sol 
<400> 68 

acgacgggcc agtgaattgt aatacgactc actatagggc gaattgggcc ctctagatgc 60 
atgctcgagc ggccgccagt gtgatggata tctgcagaat tcgcccttca ggcctaacac 120 
atgcaagtcg aacggatccc ttcggattag tggcggacgg gtgagtaaca cgcgggaacg 180 
tgccctttgg ttcggaacaa ctcagggaaa cttgagctaa taccggataa gcctttcgag 240 
ggaaagattt atcgccattg gagcggcccg cgtaggatta gctagttggt gaggtaaaag 300 
ctcaccaagg cgacgatcct tagctggtct gagaggatga tcagccacat tgggactgag 360 
acacggccca aactcctacg ggaggcagca gtggggaatc ttgcgcaatg ggcgaaagcc 420 
tgacgcagcc atgccgcgtg aatgatgaag gtcttaggat tgtaaaattc tttcaccggg 480 
gacgataatg acggtacccg gagaagaagc cccggctaac ttcgtgccag cagccgcggt 540 
aatacgaagg gggctagcgt tgctcggaat tactgggcgt aaagggagcg taggcggata 600 
gtttagtcag aggtgaaagc ccagggctca accttggaat tgcctttgat actggctatc 660 
ttgagtacgg aagaggtatg tggaactccg agtgtagagg tgaaattcgt agatattcgg 720 
aagaacacca gtggcgaagg cgacatactg gtccgttact gacgctgagg ctcgaaagcg 780 
tggggagcaa acaggattag ataccctggt agtccacgct gtaaacgatg agtgctagtt 840 
gtcggcatgc atgcatgtcg gtggcgcagc taacgcatta agcactccgc ctggggagta 900 
cggtcgcaag attaaaactc aaaggaattg acgggggccc gcacaagcgg tggagcatgt 960 
ggtttaattc gaagcaacgc gcagaacctt accacctttt gacatgcccg gaccgctcca 1020 
gagatggagc tttcccttcg gggactggga cacaggtgct gcatggctgt cgtcagctcg 1080 
tgtcgtgaga tgttgggtta agtcccgcaa cgagcgcaac cctcgctatt agttgccatc 1140 
aggtttggct gggcactcta ataggaccgc cggtggtaag ccggaggaag gtggggatga 1200 
cgtcaagtcc tcatggccct tacaaggtgg gctacacacg tgctacaatg gcgactacag 1260 
agggctgcaa tcccgcgagg gggagccaat ccctaaaagt cgtctcagtt cggattgcac 1320 
tctgcaactc gagtgcatga agttgg 1346 



<210> 69 
<211> 1500 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
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<400> 69 

acagctatga ccatgattac gccaagcttg 
gccagtgtgc tggaattcgc ccttcaggcc 
acggagtggc agacgggtga gtaacacgtg 
gggaaacttg tgctaatacc gaataagccc 
ggcccgcgtc tgattagcta gttggtgggg 
tggtctgaga ggatgatcag ccacactggg 
gcagcagtta ggaatcttgg acaatgggcg 
atgaaggcct tagggttgta aagctctttc 
agaagccccg gctaacttcg tgccagcagc 
cggaatcact gggcgtaaag cgcacgtagg 
agctcaactc cagaactgcc tttgatactg 
actccgagtg tagaggtgaa attcgtagat 
tcactggtcc ggtactgacg ctgaggtgcg 
cctggtagtc cacgccgtaa acgatggatg 
cgcagctaac gcattaagca tcccgcctgg 
gaattgacgg gggcccgcac aagcggtgga 
aaccttacca gcccttgaca tgtcccgtat 
ctggcgggaa cacaggtgct gcatggctgt 
agtcccgcaa cgagcgcaac cctcgccctt 
gggactgccg gtgataagcc gcgaggaagg 
acgggctggg ctacacacgt gctacaatgg 
tgcgcaaatc tcaaaaagcc gtctcagttc 
gtcggaatcg ctagtaatcg cagatcagca 
acacaccgcc caagggcgaa ttctgcagat 
catctagagg gcccaattcg ccctatagtg 



gtaccgagct cggatccact agtaacggcc 60 
taacacatgc aagtcgaacg ccgtagcaat 120 
ggaacgtgcc ctttggttcg gaacaacaca 180 
ttacggggaa agatttatcg ccaaaggatc 240 
taacggccca ccaaggctac gatcagtagc 300 
actgagacac ggcccagact cctacgggag 360 
caagcctgat ccagccatgc cgcgtgagtg 420 
agcggggaag ataatgacgg tacccgcaga 480 
cgcggtaata cgaagggggc tagcgttgct 540 
cggatcttta agtcaggggt gaaatcctgg 600 
gggatctcga gtccggaaga ggtgagtgga 660 
attcggaaga acaccagtgg cgaaggcggc 720 
aaagcgtggg gagcaaacag gattagatac 780 
ctagccgttg gcgggtttac tcgtcagtgg 840 
ggagtacggt cgcaagatta aaactcaaag 900 
gcatgtggtt caattcgaag caacgcgcag 960 
ggacttcaga gatgaggtcc ttcagttcgg 1020 
cgtcagctcg tgtcgtgaga tgttgggtta 1080 
agttgccatc atttagttgg gcactctaag 114 0 
tggggatgac gtcaagtcct catggccctt 1200 
cggtgacagt gggacgcaat ggagcaatcc 1260 
ggattggggt ctgcaactcg accccatgaa 1320 
cgctgcggtg aatacgttcc cgggccttgt 1380 
atccatcaca ctggcggccg ctcgagcatg 1440 
agtcgtatta caattcactg gccgtcgttt 1500 



<210> 70 
<211> 1113 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 70 

gagctaatac cgtataatga cttcggtcca aagatttatc gcctgaggat gagcccgcgt 60 

cggattagct agttggtagg gtaaaagcct accaaggcga cgatccgtag ctggtctgag 120 

aggatgafcca gccacactgg gactgagaca cggcccagac tcctacggga ggcagcagtg 180 

gggaatattg gacaatgggc gcaagcctga tccagcaatg ccgcgtgagt gatgaaggcc 240 

ttagggttgt aaagctcttt tacccgggaa gataatgact gtaccgggag aataagcccc 300 

ggctaactcc gtgccagcag ccgcggtaat acggaggggg ctagcgttgt tcggaattac 360 

tgggcgtaaa gcgcacgtag gcggctttgt aagttagagg tgaaagcccg gggctcaact 420 

ccggaattgc ctttaagact gcatcgctcg aattgtggag aggtaagtgg aattccgagt 480 

gtagaggtga aattcgtaga tattcggaag aacaccagtg gcgaaggcga cttactggac 540 

acatattgac gctgaggtgc gaaagcgtgg ggagcaaaca ggattagata ccctggtagt 600 

ccacgccgta aacgatgatg actagctgtc ggggcgctta gcgtttcggt ggcgcagcta 660 

acgcgttaag tcatccgcct ggggagtacg gccgcaaggt taaactcaaa gaaattgacg 720 

ggggcctgca caagcggtgg agcatgtggt ttaattcgaa gcaacgcgca gaaccttacc 780 
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agcgtttgac atgccaggac ggtttccaga 
acaggtgctg catggctgtc gtcagctcgt 
gagcgcaacc ctcgtcttta gttgctacca 
tgataagccg gaggaaggtg gggatgacgt 
acacacgtgc tacaatggcg gtgacaacgg 
gaaaagccgt ctcagttcgg attgttctct 



gatggattcc ttcccttacg ggacctggac 840 
gtcgtgagat gttgggttaa gtcccgcaac 900 
tttagttgag cactctagag aaactgccgg 960 
caagtcctca tggcccttac gcgctgggct 1020 
gcagcaaact cgcgagagtg agcaaatccc 1080 
9 ca 1113 



<210> 71 
<211> 1225 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 71 

ggagcggcgg acgggtgagt aacgcgtggg aacgtgccct ttggtacgga acaactgagg 60 
gaaacttcag ctaataccgt atgtgccctt cgggggaaag atttatcgcc attggagcgg 120 
cccgcgttgg attaggtagt tggtggggta aaggcctacc aagcctacga tccatagctg 180 
gtctgagagg atgatcagcc acactgggac tgagacacgg cccagactcc tacgggaggc 240 
agcagtaggg aatcttgcgc aatgggcgaa agcctgacgc agccatgccg cgtgtatgat 300 
gaaggtctta ggattgtaaa atactttcac cggggaagat aatgacggta cccggagaag 360 
aagccccggc taacttcgtg ccagcagccg cggtaatacg aagggggcta gcgttgctcg 420 
gaattactgg gcgtaaaggg cgcgtaggcg gatatttaag tcgggggtga aagcccaggg 480 
ctcaaccctg gaattgcctt cgatactgga tatcttgagt tcgggagagg tgagtggaat 540 
gccgagtgta gaggtgaaat tcgtagatat tcggcggaac accagtggcg aaggcgactc 600 
actggcccga tactgacgct gaggcgcgaa agcgtgggga gcaaacagga ttagataccc 660 
tggtagtcca cgctgtaaac gatgagtgct agttgtcggc atgcatgcat gtcggtgacg 720 
cagctaacgc attaagcact ccgcctgggg agtacggtcg caagattaaa actcaaagga 780 
attgacgggg gcccgcacaa gcggtggagc atgtggttta attcgaagca acgcgcagaa 840 
ccttaccacc ttttgacatg ccctgatcgc tggagagatc cagttttccc ttcggggaca 900 
gggacacagg tgctgcatgg ctgtcgtcag ctcgtgtcgt gagatgttgg gttaagtccc 960 
gcaacgagcg caaccctcgc cattagttgc catcattaag ttgggcactc taatgggacc 1020 
gccggtggta agccggagga aggtggggat gacgtcaagt cctcatggcc cttacggggt 1080 
gggctacaca cgtgctacaa tggcgactac agagggttgc aaacctgcga aggggagcta 1140 
atccctaaaa gtcgtctcag ttcggattgc actctgcaac tcgagtgcat gaagtcggaa 1200 
tcgctagtaa tcgcggatca gcatg 12 25 



<210> 72 
<211> 1286 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rOrganisme du sol 



<400> 72 

atgattagta gcaatactaa tcgatgacga gcggcggacg ggtgagtaat acgtaggaac 60 
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ctgcccttaa gcgggggata actaagggaa 
agaaaagctg cagcaatgtg gcacttgagg 
aggtaatagc tcaccaaggc gatgatctgt 
gggactgaga cacggcccag actcctacgg 
gggcaaccct gatccagcga tgccgcgtgg 
ttaggtcggg aagaaggtta gtagaggaaa 
agcaccggca aactctgtgc cagcagccgc 
atttactggg cgtaaagggc gcgtaggcgg 
tcaacctggg aagtgcatcg caaactgtct 
tccggtgtag cggtgaaatg cgtagagatc 
ctggcataat actgacgctg aggcgcgaaa 
ggtagtccac gctgtaaact atgagtacta 
agctaacgcg ataagtattc cgcctgggaa 
ttgacggggg cccgcacaag cggtggagca 
cttacctacc cttgacatcc tgagaatctg 
agagacaggt gctgcatggc tgtcgtcagc 
taacgagcgc aacccttgcc cttagttgcc 
ccagtgatga actggaggaa ggcggggacg 
ggccacacac gtgctacaat ggggcgtacg 
tctcataaag cgtctcgtag tccggattgg 
tcgctagtaa tcgcgaatca gcattg 



actttagcta ataccgcata aactcgagag 120 
aggggcctgc gtcagattag ctagttggtg 180 
aactggtctg agaggacgac cagtcacact 240 
gaggcagcag tggggaatat tggacaatgg 300 
gtgaagaagg ccttcgggtt gtaaagccct 360 
tgctattaac ttgacggtac cgacagaata 420 
ggtaatacag agggtgcgag cgttaatcgg 480 
tgagatgtgt gtgatgtgaa agccccaggc 540 
gactggagta tatgagaggg tggcggaatt 600 
ggaaggaacg tcgatggcga aggcagccac 660 
gcgtggggat cgaacaggat tagataccct 720 
gatgttggta ggggaaccta tcggtatcga 780 
gtacggccgc aaggttgaaa ctcaaatgaa 840 
tgtggtttaa ttcgatgcaa cgcgaagaac 900 
gcttagtagc tggagtgccg aaaggagctc 960 
tcgtgttgtg agatgttggg ttaagtcccg 1020 
atcatttagt tggggactct aaggggaccg 1080 
acgtcaagtc atcatggcct ttatgggtag 1140 
gagggtcgca aacccgcgag ggggagctaa 1200 
agtctgcaac tcgactccat gaagttggaa 1260 
1286 



<210> 73 
<211> 1288 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisrae du sol 
<400> 73 

cggggcaacc ctggcggcga gcggcgaacg ggtgagtaat gcatcggaac gtgtcctctt 60 
gtgggggata accagtcgaa agactggcta ataccgcatg agatcgaaag atgaaagcag 120 
gggaccgcaa ggccttgcgc gagaggagca gccgatgccg gattagctag ttggtggggt 180 
aaaagcctac caaggcgacg atccgtagct ggtctgagag gacgaccagc cacactggga 240 
ctgagacacg gcccagactc ctacgggagg cagcagtggg gaattttgga cagtgggggc 300 
aaccctgatc cagccatgcc gcgtgtgtga agaaggcctt cgggttgtaa agcactttcg 360 
gacggaacga aatcgcgcga gttaatagtt cgcgtggatg acggtaccgt aagaagaagc 420 
accggctaac tacgtgccag cagccgcggt aatacgtagg gtgcgagcgt taatcggaat 480 
tactgggcgt aaagtgtgcg caggcggctt cgcaagtcga gtgtgaaatc cccgagctta 540 
acttgggaat tgcgctcgaa actacggagc cggagtgtgg cagaggaagg tggaattcca 600 
cgtgtagcgg tgaaatgcgt agagatgtgg aggaacaccg atggcgaagg cggccttctg 660 
ggccaacact gacgctcatg cacgaaagcg tggggagcaa acaggattag ataccctggt 720 
agtccacgcc ctaaacgatg atgactagtt gttggaggag ttaaatcctt tagtaacgca 780 
gctaacgcgt gaagtcatcc gcctggggag tacggtcgca agattaaaac tcaaaggaat 840 
tgacgggggc ccgcacaagc ggtggatgat gtggtttaat tcgatgcaac gcgaaaaacc 900 
ttacctaccc ttgacatgct aggaacgctg cagaaatgta gcggtgcccg aaagggaacc 960 
tagacacagg tgctgcatgg ctgtcgtcag ctcgtgtcgt gagatgttgg gttaagtccc 1020 
gcaacgagcg caacccctgc cattagttgc tacattcagt tgagcactct aatgggactg 1080 
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ccggtgacaa accggaggaa ggtggggatg 

ggctacacac gtcatacaat ggcgcgtaca 

tcccagaaag cgcgtcgtag tccggattgg 

atcgctagta atcgcggatc agcatgtc 



acgtcaagtc ctcatggccc ttatgggtag 1140 
gagggttgcc aacccgcgag ggggagccaa 1200 
agtctgcaac tcgactccca tgaagtcgga 1260 
1288 



<210> 74 
<211> 600 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 74 

cgtgccagca gccgcggtaa tacgtaggtg gcaagcgttg tccggaatta ttgggcgtaa 60 
agcgcgcgca ggtggtttct taagtctgat gtgaaagccc acggcttaac cgtggagggt 120 
cattggaaac tgggagactt gagtgcagaa gaggaaagtg gaattccaag tgtagcggtg 180 
aaatgcgtag agatttggag gaacaccagt ggcgaaggcg actttctggt ctgcaactga 240 
cgctgaggcg cgaaagcatg gggagcaaac aggattagat accctggtag tccatgccgt 300 
aaacgatgag tgctaagtgt tagggggttt ccgcccctta gtgctgcagc taacgcatta 360 
agcactccgc ctggggagta cgaccgcaag gttgaaactc aaaggaattg acgggggccc 420 
gcacaagcgg tggagcatgt ggtttaattc gaagcaacgc gaagaacctt accaggtctt 480 
gacatcccga tgancgctct agagatagag ttttcccttc ggggacattg gtgacaggtg 540 
gtgcatggtt gtcgtcagct cgtgtcgtga gatgttgggt taagtcccgc aacgagcgca 600 



<210> 75 
<211> 601 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 75 

cgtgccagca gccgcggtaa tacgtaggtg gcaagcgttg tccggaatta ttgggcgtaa 60 
agcgcgcgca ggtggtttct taagtctgat gtgaaagccc acggcttaac cgtggagggt 120 
cattggaaac tgggagactt gagtgcagaa gaggaaagtg gaattccaag tgtagcggtg 180 
aaatgcgtag. agatttggag gaacaccagt ggcgaaggcg actttctggt ctgcaactga 240 
cgctgaggcg cgaaagcatg gggagcaaac aggattagat accctggtag tccatgccgt 300 
aaacgatgag tgctaagtgt tagggggttt ccgcccctta gtgctgagct aacgcattaa 360 
gcactccgcc tggggagtac gaccgcaagg ttgaaactca aaggaattga cgggggcccg 420 
cacaagcggt ggagcatgtg gtttaattcg aagcaacgcg aagaacctta ccaggtcttg 480 
acatcccgat gacgctctag agatagagtt ttcccttcgg ggacattggt gacaggtggt 540 
gcatggttgt cgtcagctcg tgtcgtgaga tgttgggtta agtcccgcaa cgagcgcacc 600 
c 601 



<210> 76 
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<211> 1236 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 76 

tgccctgtag acggggataa cttcgggaaa ccggagctaa taccggataa tcctcttccc 60 
cacatgggga agagttgaaa ggcgctttcg cgtcactaca ggatgggccc gcggtgcatt 120 
agctagttgg tagggtaacg gcctaccaag gcgacgatgc atagccgacc tgagagggtg 180 
atcggccaca ttgggactga gacacggccc aaactcctac gggaggcagc agtagggaat 240 
cttccacaat ggacgaaagt ctgatggagc aacgccgcgt gagtgatgaa ggttttcgga 300 
tcgtaaaact ctgttgtaag ggaagaacca gtacgtcagg caatggacgt accttgacgg 360 
taccttatta gaaagccacg gctaactacg tgccagcagc cgcggtaata cgtaggtggc 420 
aagcgttgtc cggaattatt gggcgtaaag cgcgcgcagg tggtttctta agtctgatgt 480 
gaaagcccac ggcttaaccg tggagggtca ttggaaactg ggagacttga gtgcagaaga 540 
ggaaagtgga attccaagtg tagcggcgaa atgcgtagag atttggagga acaccagtgg 600 
cgaaggcgac tttctggtct gcaactgacg ctgaggcgcg aaagcatggg gagcaaacag 660 
gattagatac cctggtagtc catgctgtaa acgatgagtg ctaagtgtta gggggtttcc 720 
gccccttagt gctgcagcta acgcattaag cactccgcct ggggagtacg accgcaaggt 780 
tgaaactcaa aggaattgac gggggcccgc acaagcggtg gagcatgtgg tttaattcga 840 
agcaacgcga agaaccttac caggtcttga catcccgatg atcgctctgg agatagagtt 900 
ttcccttcgg ggacattggt gacaggtggt gcatggttgt cgtcagctcg tgtcgtgaga 960 
tgttgggtta agtcccgcaa cgagcgcaac ccttaatctt agttgccatc atttagttgg 1020 
gcactctaag gtgactgccg gtgataaacc ggaggaaggt ggggatgacg tcaaatcatc 1080 
atgcccctta tgacctgggc tacacacgtg ctacaatgga cggtacaaag agtcgctaac 1140 
tcgcgagagt atgctaatct catagaaccg ttctcagttc ggattgtagg ctgcaactcg 1200 
cctacatgaa gccggaatcg ctagtaatcg cggatc 1236 



<210> 77 
<211> 815 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rOrganisme du sol 
<400> 77 

caagcgttgt ccggaattat tgggcgtaaa gagctcgtag gcggtttgtc gcgtctgctg 60 
tgaaaactcg aggctcaacc tcgggcttgc agtgggtacg ggcagactag agtgcggtag 120 
gggtgactgg aattcctggt gtagcggtgg aatgcgcaga tatcaggagg aacaccgatg 180 
gcgaaggcag gtcactgggc cgcaactgac gctgaggagc gaaagcatgg ggagcgaaca 240 
ggattagata ccctggtagt ccatgccgta aacgttgggc actaggtgtg gggctcattc 300 
cacgagttcc gtgccgcagc aaacgcatta agtgccccgc ctggggagta cggccgcaag 360 
gcttaaaact caaagaaatt gacgggggcc cgcacaagcg gcggagcatg cggattaatt 420 
cgatgcaacg cgaagaacct taccaaggct tgacatacac cggaaacttc cagagatggt 480 
tgccccgcaa ggtcggtgta caggtggtgc atggttgtcg tcagctcgtg tcgtgaagat 540 
gttgggttaa gtcccgcaac gagcgcaacc ctcgtcctat gttgccagca cgtgatggtg 600 
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gggactcata ggagactgcc ggggtcaact 
catgcccctt atgtcttggg cttcacgcat 
accgcaaggt ggagcgaatc ccaaaaagcc 
gaccccatga agtcggagtc gctagtaatc 



cggaggaagg tggggatgac gtcaaatcat 660 
gctacaatgg ccggtacaaa gggctgcgat 720 
ggtctcagtt cggattgggg tctgcaactc 780 
gcaga 815 



<210> 78 
<211> 826 
<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :Organisrae du sol 



<400> 78 

tcgtaggtgg cttgtcacgt cgggtgtgaa 
gatacgggct ggctagaggt aggtagggga 
cgcagatatc aggaggaaca ccggtggcga 
aggagcgaaa gcgtggggag cgaacaggat 
ttgggcgcta ggtgtgggga ccttccacgg 
cccgcctggg gagtacggcc gcaaggctaa 
agcggcggag catgttgctt aattcgacgc 
cgcccggaaa gcttcagaga tggagccctc 
gtcgtcagct cgtgtcgtga gatgttgggt 
aatgttgcca gcaacatcct tcggggtggt 
ctcggaggaa ggtggggacg acgtcaagtc 
atgctacaat ggccggtaca gagggttgcg 
ccggtctcag ttcggattgg ggtctgcaac 
tcgcagatca gcaacgctgc ggtgaatacg 



agcttggggc ttaactccag gtctgcattc 60 
gaacggaatt cctggtgtag cggtgaaatg 120 
aggcggttct ctgggcctta cctgacgctg 180 
tagataccct ggtagtccac gctgtaaacg 240 
tttccgcgcc gtagctaacg cattaagcgc 300 
aactcaaagg aattgacggg ggcccgcaca 360 
aacgcgaaga accttaccaa ggcttgacat 420 
ttcggactgg gtgacaggtg gtgcatggct 480 
taagtcccgc aacgagcgca acccttgttc 540 
tggggactca ttggagactg ccggggtcaa 600 
atcatgcccc ttatgtcttg ggctgcaaac 660 
ataccgcaag gtggagcgaa tccctaaaag 720 
tcgaccccat gaagtcggag tcgctagtaa 780 
ttcccgggcc ttgtac 826 



<210> 79 
<211> 799 
<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :Organisme du sol 



<400> 79 

cgtaggcggt ttgtcgcgtc tgccgtgaaa 
gtacgggcag actagagtga tgtaggggag 
gcagatatca ggaggaacac cgatggcgaa 
ggagcgaaag catggggagc gaacaggatt 
tgggcactag gtgtggggga cattccacgt 
cccgcctggg gagtacggcc gcaaggctaa 
agcggcggag catgcggatt aattcgatgc 
gaaccggaaa cacctggaaa caggtgcccc 
ttgtcgtcag ctcgtgtcgt gagatgttgg 
tctatgttgc cagcgcgtta tggcggggac 



gtccggggct caactccgga tctgcggtgg 60 
actggaattc ctggtgtagc ggtgaaatgc 120 
ggcaggtctc tgggcattaa ctgacgctga 180 
agataccctg gtagtccatg ccgtaaacgt 240 
tttccgcgcc gtagctaacg cattaagtgc 300 
aactcaaagg aattgacggg ggcccgcaca 360 
aacgcgaaga accttaccaa ggcttgacat 420 
gcttgcggtc ggtttacagg tggtgcatgg 480 
gttaagtccc gcaacgagcg caaccctcgt 540 
tcataggaga ctgccggggt caactcggag 600 
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gaaggtgggg acgacgtcaa atcatcatgc 

aatggccggt acaaagggtt gcgatactgt 

cagttcggat tggggtctgc aactcgaccc 

tcagcaacgc tgcggtgaa 



cccttatgtc ttgggcttca cgcatgctac 660 
gaggtggagc taatcccaaa aagccggtct 720 
catgaagtcg gagtcgctag taatcgcaga 780 
799 



<210> 80 
<211> 1250 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 80 

tgccagcttg ctggtggatt agtggcgaac gggtgagtaa cacgtgagta acctgccctt 60 
aactctggga taagcctggg aaactgggtc taatgccgga tatgactcct catcgcatgg 120 
tggggggtgg aaagcttttt gtggttttgg atggactcgc ggcctatcag cttgttggtg 180 
aggtaatggc tcaccaaggc gacgacgggt agccggcctg agagggtgac cggccacact 240 
gggactgaga cacggcccag acttctacgg gaggcagcag tggggaatat tgcacaatgg 3 00 
gcgaaagcct gatgcagcga cgccgcgtga gggatgacgg ccttcgggtt gtaaacctct 360 
ttcagtaggg aagaagcgaa agtgacggta cctgcagaag aagcgccggc taactacgtg 420 
ccagcagccg cggtaatacg tagggcgcaa gcgttatccg gaattattgg gcgtaaagag 480 
ctcgtaggcg gtttgtcgcg tctgccgtga aagtccgggg ctcaactccg gatctgcggt 540 
gggtacgggc agactagagt gatgtagggg agactggaat tcctggtgta gcggtgaaat 600 
gcgcagatat caggaggaac accgatggcg aaggcaggtc tctgggcatt aactgacgct 660 
gaggagcgaa agcatgggga gcgaacagga ttagataccc tggtagtcca tgccgtaaac 720 
gttgggcact aggtgtgggg gacattccac gttttccgcg ccgtagctaa cgcattaagt 780 
gccccgcctg gggagtacgg ccgcaaggct aaaactcaaa ggaattgacg ggggcccgca 840 
caagcggcgg agcatgcgga ttaattcgat gcaacgcgag gaaccttacc aaggcttgac 900 
atgaaccgga aatacctgga aacaggtgcc ccgcttgcgg tcggtttaca ggtggtgcat 960 
ggttgccgtc agctcgtgtc gtgagatgtt gggttaagtc ccgcaacgag cgcaaccctc 1020 
gttctatgtt gccagcgcgt tatggcgggg actcatagga gactgccggg gtcaactcgg 1080 
aggaaggtgg ggacgacgtc aaatcatcat gccccttatg tcttgggctt cacgcatgct 1140 
acaatggccg gtacaaaggg ttgcgatact gtgaggtgga gctaatccca aaaagccggt 1200 
ctcagttcgg attggggtct gcaactcgac cccatgaagt cggagtcgct 1250 



<210> 81 
<211> 1210 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisrae du sol 
<400> 81 

cgctaatacc ggatacggcg cgagagtctt cggactttcg cgagaaagat tcgcaaggat 60 
cactgaggga cgagcctgcg gcccatcagc tagttggtga ggtaagagct caccaaggct 120 
aagacgggta gctggtctga gaggatgatc agccacactg gaactgagac acggtccaga 180 
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ctcctacggg aggcagcagt ggggaatatt 
gccgcgtgag cgatgagggc cttcgggtcg 
cggtgaagag tcggccttga cggtatctcc 
agccgcggta atacggaggg tgcaaacgtt 
aggcggcgtg ataagttggg tgtgaaagcc 
ctgtcacgct tgaatctcgg agggggtcag 
gatatcggga ggaataccag tggcgaaggc 
gcgaaagcgc ggggagcaaa caggattaga 
gtgctagacg ggggaggtat tgaccccttc 
cctggggagt acggtcgcaa gactaaaact 
gtggagcatg tggtttaatt cgacgcaacg 
gaacctggct gaaaggctgg ggtgccctcc 
gtcgtcagct cgtgtcgtga gatgttgggt 
tcagttgcca acattaaggt gggaactctg 
tggggacgac gtcaagtcct catggccctt 
ctggtacaat gagccgcaaa accgcgaggt 
cggatcggag tctgcaactc gactccgtga 
acgctttcgg 



gcgcaatggg cgaaagcctg acgcagccac 240 
taaagctctg tggggagaga cgaataaggc 300 
ttagcaagca ccggctaact ccgtgccagc 360 
gctcggaatc attgggcgta aagcgcacgt 420 
ctgggctcaa cccaggaagt gcattcaaaa 480 
agaattcccg gtgtagaggt gaaattcgta 540 
gctggcctgg acgaagattg acgctgaggt 600 
taccctggta gtccgcgctg taaacgatga 660 
gctgccgaag ctaacgcgtt aagcactccg 720 
caaaggaatt gacgggggcc cgcacaagcg 780 
cgcaaaacct tacctgggtt aaatccgccg 840 
ggggaatcgg tgagaaggtg ctgcatggct 900 
taagtcccgc aacgagcgca acccctatcg 960 
gcgagactgc cggtctaaac cggaggaagg 1020 
atgcccaggg ctacacacgt gctacaatgg 1080 
caagctaatc tcaaaaaacc agtctcagtt 1140 
agctggaatc gctagtaatc gaagatcagc 1200 
1210 



<210> 82 
<211> 1272 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 82 

gatgccagct tgctggtgga ttagtggcga acgggtgagt aacacgtgag taacctgccc 60 
ttaactctgg gataagcctg ggaaactggg tctaataccg gatatgactc ctcatcgcat 120 
ggtggggggt ggaaagcttt ttgtggtttt ggatggactc gcggcctatc agcttgttgg 180 
tgaggtaatg gctcaccaag gcgacgacgg gtagccggcc tgagagggtg accggccaca 240 
ctgggactga gacacggccc agactcctac gggaggcagc agtggggaat attgcacaat 300 
gggcgaaagc ctgatgcagc gacgccgcgt gagggatgac ggccttcggg ttgtaaacct 360 
ctttcagtag ggaagaagcg aaagtgacgg tacctgcaga agaagcgccg gctaactacg 420 
tgccagcagc cgcggtaata cgtagggcgc aagcgttatc cggaattatt gggcgtaaag 480 
agctcgtagg cggtttgtcg cgtctgccgt gaaagtccgg ggctcaactc cggatctgcg 540 
gtgggtacgg gcagactaga gtgatgtagg ggagactgga attcctggtg tagcggtgaa 600 
atgcgcagat atcaggagga acaccgatgg cgaaggcagg tctctgggca ttaactgacg 660 
ctgaggaacg aaagcatggg gagcgaacag gattagatac cctggtagtc catgccgtaa 720 
acgttgggca ctaggtgtgg gggacattcc acgttttccg cgccgtagct aacgcattaa 780 
gtgccccgcc tggggagtac ggccgcaagg ctaaaactca aaggaattga cgggggcccg 840 
cacaagcggc ggagcatgcg gattaattcg atgcaacgcg aagaacctta ccaaggcttg 900 
acatgaaccg gaaatacctg gaaacaggtg ccccgcttgc ggtcggttta caggtggtgc 960 
atggttgtcg tcagctcgtg tcgtgagatg ttgggttaag tcccgcaacg agcgcaaccc 1020 
tcgttctatg ttgccagcgc gttatggcgg ggactcatag gagactgccg gggtcaactc 1080 
ggaggaaggt ggggacgacg tcaaatcatc atgcccctta tgtcttgggc ttcacgcatg 1140 
ctacaatggc cggtacaaag ggttgcgata ctgtgaggtg gagctgatcc caaaaagccg 1200 
gtcccagttc ggattggggt ctgcaactcg accccatgaa gtcggagtcg ctagtaatcg 1260 
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cagatcagca ac 12 72 



<210> 83 
<211> 1247 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 83 

tgtttagtag caatactaaa tgatgacgag cggcggacgg gtgaggaaca cgtaggaacc 60 
tgcccaagag agggggacaa ccaagggaaa ctttggctaa taccgcataa tctctacgga 120 
gaaaagttgc ccgtaagggt ggcgcttttg gaggggcctg cgtccgatta gttagttggt 180 
gaggtaatag ctcaccaaga ctgtgatcgg taactggtct gagaggacga ccagtcacac 240 
tgggactgag acacggccca gactcctacg ggaggcagca gtggggaatc ttggacaatg 300 
ggggcaaccc tgatccagcg atgccgcgtg ggtgaagaag gccttcgggt tgtaaagccc 360 
tttaggcggg gaagaaggat atgggatgaa taagcctgta ttttgacggt acccgcagaa 420 
taagcaccgg caaactctgt gccagcagcc gcggtaatac agagggtgcg agcgttaatc 480 • 
ggatttactg ggcgtaaagg gcgcgtaggc ggttgtgtga gtgtgatgtg aaagccccgg 540 
gctcaacctg ggaagtgcat cgcaaacgac acaactggag tatatgagag ggtggcggaa 600 
tttccggtgt agcggtgaaa tgcgtagaga tcggaaggaa cgtcgatggc gaaggcagcc 660 
acctggcata atactggcgc tgaggcgcga aagcgtgggg agcgaacagg attagatacc 720 
ctggtagtca cgcccgtaaa cgatgagaac tagatgttgg agggggaacc cttcagtatc 780 
gaagctaacg cgataagttc tccgcctggg aagtacagtc gcaagactga aactcaaaag 840 
aattgacggg ggcccgcaca agcggtggag catgtggttt aattcgatgc aacgcgaaga 900 
accttacctg cccttgacat cctgcgaatc ttgccgagag gtgagagtgc cgcagggagc 960 
gcagagacag gtgctgcatg gctgtcgtca gctcgtgttg tgagatgttg ggttaagtcc 1020 
cgtaacgagc gcaacccttg tccttagttg ccatcattta gttggggact ctaaggagac 1080 
cgccggtgat gaaccggagg aaggcgggga cgacgtcaag tcatcatggc ctttatgggt 1140 
agggctacac acgtgctaca atggggcgta cagagggtcg ccaacccgcg agggggagcc 1200 
aatctcttaa agcgtctcgt agtccggatt ggagtctgca actcgac 1247 



<210> 84 
<211> 1292 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 84 

ggctcgcaag agcaaccggc gaacgggtgc gtaacacgtg aacaacctgc cctcgtgtgg 60 
gggatagccg ggctaacgcc cgggtaatac cgcatacgtt ctctctgggg agtcctgggg 120 
agaggaaagc tccggcgcac ggggaggggt tcgcggccta tcagctagtt ggcggggtaa 180 
tggcccacca aggcgacgac gggtagctgg tctgagagga tggccagcca cattgggact 240 
gagagacggc ccagactcct acgggaggca gcagtgggga atcttgcgca atggccgaaa 300 
ggctgacgca gcgacgccgc gtgtgggagg acgcctttcg gggtgtaaac cactgttgcc 360 
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cgggacgaac agcctctttc gagaggtctg 
tccgtgccag cagccgcggt aatacggagg 
aaagggcgcg taggtggccc ggtcagttcg 
ggccatgaat actgccgcgg ctggagcact 
gtggaatgcg tagagatccg gaagaacacc 
tgacactgag gcgcgacagc gtggggagca 
cgtaaacgat gggcactagg cgcttggggg 
ttaagtgccc cgcctgggga gtacggccgc 
cccgcacaag cggtggagca tgtggtttaa 
cttgacatac acgggaaacc ggtcagaaac 
tgctgcatgg ctgtcgtcag ctcgtgtcgt 
caacccctgt ctctagttgc cagcgcgtca 
caaaccggag gaaggtgggg atgacgtcaa 
cacgtgctac aatggcgggg acagagggtc 
aaccccgcct cagttcggat tgtcgtctgc 
taatcgtgga tcagctacgc cacggtgaat 



acggtaccgg gtgaggaagc accggctaac 420 
gtgcgagcgt tgtccggaat cattgggcgt 480 
tggtgaaagc gcggggctca accctgcgtc 540 
gtagaggcag gcggaattcc gggtgtagcg 600 
ggtggcgaag gcggcctgct gggcagtagc 660 
aacaggatta gataccctgg tagtccacgc 720 
agcgaccccc cgagggccgg cgctaacgca 780 
aaggctgaaa ctcaaaggaa ttgacggggg 840 
ttcgacgcaa cgcgaagaac cttacctagg 900 
ggccggccct cttcggagcc cgtgcacagg 960 
gagatgttgg gttaagtccc gcaacgagcg 1020 
tggcggggac tctagagaga ctgccggtgc 1080 
gtcatcatgg tccttacgtc tagggctaca 1140 
gcgagccggc aacggcaagc caatcccgta 1200 
aactcgacgg catgaagctg gaatcgctag 1260 
ac 1292 



<210> 85 
<211> 1300 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 85 

tcccttcggg agcaagtaca gcggcgaacg ggtgagtaac acgtaggtaa cctaccctgg 60 

agactgggat aacctgccga aaggcgggct aataccagat aagaccacga gggctgcggc 120 

ccttggggca aaaggtggcc tctacttgta agctaccact ccgggatggg cctgcgcgcc 180 

attagctagt tggcggggta acggcccacc aaggcagaga tggctagctg gtctgagagg 240 

atggccagcc acacagggac tgagacacgg cccagactcc tacgggaggc agcagtgggg 300 

aatattgcgc aatgggcgaa agcctgacgc agcgacgccg cgtgggtgat gaaggccttc 360 

gggtcgtaaa gccctgtcaa gagggacgaa accttgtcga cctaacacgt cggcaacctg 420 

acggtacctc tgaaggaagc accggctaac tccgtgccag cagccgcggt aatacggagg 480 

gtgcgagcgt tgttcggaat tactgggcgt aaagcgcgtg taggcggcct cttcagtctg 540 

gtgtgaaagc ccggggctca accccggaag tgcattggat actgggaggc tggagtaccg 600 

gagaggaggg tggaattcct ggtgtagcgg tgaaatgcgt agatatcagg aggaacacct 660 

gtggcgaagg cggccctctg gacggatact gacgctgaga cgcgaaagcg tggggagcaa 720 

acaggattag ataccctggt agtccacgct gtaaacgatg ggcactaggt gttcggggta 780 

ttgaccccct gagtgccgca gctaacgcat taagtgcccc gcctggggaa tacggccgca 840 

aggttaaaac tcaaaggaat tgacgggggc ccgcacaagc ggtggagcat gtggtttaat 900 

tcgacgcaac gcgaagaacc ttacctgggc tagacaacat cggacagcct cagaaatgag 960 

gtctccccgc aaggggccgg tggttcaggt gctgcatggc tgtcgtcagc tcgtgtcgtg 1020 

agatgttggg ttaagtcccg caacgagcgc aacccctgtc tctagttgct accattcagt 1080 

tgagcactct agagagactg cccngtgtta aacgggagga aggtggggac gacgtcaagt 1140 

cctcatggcc cttatgtcca gggctacaca cgtgctacaa tgggcgatac aaagggctgc 1200 

gaacccgcga ggggaagcca atcccaaaaa gtcgctctca gttcggattg gagtctgcaa 1260 
ctcgactcca tgaaggcgga atcgctagta atcgcggatc 1300 
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<210> 86 
<211> 1186 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence ;Organisme du sol 
<400> 86 

caatgggcag cggcggacgg gtgagtaaca cgtgggaatg tacctttcgg tgcggaacaa 60 
ctcagggaaa cttgagctaa tgccgcatac gcccttacgg ggaaagattt atcgccgaaa 120 
gatcagcccg cgttggatta gctagttggt gaggtaatgg cccaccaagg cgacgatcca 180 
tagctggttt gagagaacga ccagcctcac tgggactgag acacggccca gactcctacg 240 
ggaggcagca gttgggaatc ttggacaatg ggggaaaccc tgatccagcc atgccgcgtg 300 
agtgatgaag gccttcgggt tgtaaaactc tttcgacggg gacgataatg acggtacccg 360 
tagaagaagc tccggctaac ttcgtgccag cagccgcggt aatacgaagg gggctagcgt 420 
tgttcggaat tactgggcgt aaagcgtgcg caggcggcta tccaagtcag tggtgaaagc 480 
ccggagctca actccggaat tgccattgaa actgtttagc ttgagtacga gagaggtgag 540 
tggaataccc agtgtagagg tgaaattcgt agatattggg tagaacaccg gtggcgaagg 600 
cggctcactg gctcgtaact gacgctcagg cacgacagcg tggggatcaa acaggattag 660 
ataccctggt agtccacgcc gtaaacgatg aacgctagcc gttggatagc ttgctattca 720 
gtggcgcagc taacgcatta agcgttccgc ctggggagta cggccgcaag gttgagactc 780 
agaggaattg acgggggccc gcacaagcgg tggagcatgt ggtttaattc gacgcaacgc 840 
gcagaacctt accagggttt gacatcctgt gctcgccggt gaaagccggt tttcccgcaa 900 
gggacgcaga gacaggtgct gcatggctgt cgtcagctcg tgtcgtgaga tgttgggtta 960 
agtcccgcaa cgagcgcaac cctcgccttt agttgccatc attcagttgg gcactctaga 1020 
gggaccgccg gcgacaagcc ggaggaaggt ggggatgacg tcaagtcccc atggccctta 1080 
caccctgggc tacacacgtg ctacaatggc ggtgacagtg ggcacgagct cgcgagagtc 1140 
agctaatccc aaaaaaccgt cccagttcag attgcactct gcaact 1186 



<:210> 87 
<211> 1454 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 87 

cgacggccag tgaattgtaa tacgactcac tatagggcga attgggccct ctagatgcat 60 
gctcgagcgg ccgccagtgt gatggatatc tgcagaattc gcccttcagg cctaacacat 120 
gcaagtcgag cgagaaaggg cgcttcggcg cctgagtaca gcggcgcacg ggtgcgtaac 180 
acgtgggcaa tctgtccttg agatggggat aacccagcga aagttgggct aataccgaat 240 
aagactacag gaggcaactc ccgtggttaa agggtgctct ctgcggggag catgcgcttg 300 
aggaggagcc cgcggcctat cagctagttg gtagggtcac ggcctaccaa ggcgaagacg 360 
ggtagctggt ctgagaggat gaccagccac acggggactg agacacggcc ccgactccta 420 
cgggaggcag cagtggggaa tattgggcaa tgggggaaac cctgacccag cgacgccgcg 480 
tgggtgatga aggccttcgg gtcgtaaagc cctgtcgggc ggaacgaagg ttctcacggc 540 
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aaatagccgt gagaggtgac ggtaccgccg 
gccgcggtaa gacggagggt gcaagcgttg 
ggcggtctcg caagtctggc gtgaaagccc 
tgcgaggctg gagtgccgga ggggagagtg 
agatcgggag gaataccggt ggcgaaagcg 
cgaaagcgtg gggagcaaac aggattagat 
cactaggtgt cgggggtatc cactccctcg 
ctgggaagta cggtcgcaag attaaaactc 
tggagcatgt ggttcaattc gatgcaacgc 
gaatctctgg gaaaccagag agtgcccgca 
gtcgtcagct cgtgccgtga ggtgttgggt 
ttagttgccc ccgggtcaag ccgtggcact 
aaggtgggga cgacgtcaag tcatcatggc 
atggctggga canagcgtgg ccaacgcgcg 
agttcggatc ggagtctgca actcgactcc 
cagcatgccg cggt 



aaggaagcac cggccaactc cgtgccagca 600 
ctcggaatca ctgggcgtaa agggtgcgta 660 
aaggctcagc cttggaagtg cgctcgaaac 720 
gaattcccgg tgtagcggtg aaatgcgtag 780 
actctctgga cggcaactga cgctgaggca 840 
accctggtag tccacgccgt aaacgatgga 900 
gtgccgccgc taacgcagta agtgtcccgc 960 
aaaggaattg acgggggccc gcacaagcgg 1020 
gaagaacctt acctgggttt gacatctggc 1080 
ggggagcgcc aagacaggtg ctgcatggct 1140 
taagtcccgc aacgagcgca acccttaccc 1200 
ccaagggaac tgcccgtgtt aagcgggagg 1260 
ctttatatcc agggctacac acgtgctaca 1320 
agcgggagct aatcgcaaaa ccccagcctc 1380 
gtgaagctgg aatcgctagt aatcgcggat 1440 
1454 



<210> 88 
<211> 1307 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 88 

cccttcgggg agcgagtaca gcggcgaacg ggtgagtaac acgtaggtaa cctaccctgg 60 
tgactgggat aacttgccga aaggcgggct aataccagat aagaccacga gggctgcggc 120 
ctttggggta aaagatggcc tctgcttgca tgctatcacg ccgggatggg cctgcgcgcc 180 
attagctagt tggtgaggta acggctcacc aaggcagaga tggctagctg gtctgagagg 240 
atggccagcc acactgggac tgagacacgg cccagactcc tacgggaggc agcagtgggg 300 
aatattgcgc aatgggcgaa agcctgacgc agcgacgccg cgtgggtgat gaaggccttc 360 
gggtcgtaaa gccctgtcaa gagggacgaa acctcgccga cccaatacgt cggcgacctg 420 
acggtacctc tgaaggaagc accggctaac tccgtgccag cagccgcggt aatacggagg 480 
gtgcaagcgt tgttcggaat cactgggcgt aaagcgcgtg taggcggcct tcttagtctg 540 
gtgtgaaagc ccggggctca accccggaag agcattggat actggaaggc tggagtaccg 600 
gagaggaggg tggaattcct ggtgtagcgg tgaaatgcgt agatatcagg aggaacaccg 660 
gtggcgaagg cggccctctg gacggatact gacgctgaga cgcgacagcg tggggagcaa 720 
acaggattag ataccctggt agtccacgcc gtaaacgatg ggtactaggt gttcggggta 780 
ttgaccccct gagtgccgca gctaacgcat taagtacccc gcctggggac tacggccgca 840 
aggctaaaac tcaaaggaat tgacgggggc ccgcacaagc ggtggagcat gtggtttaat 900 
tcgacgcaac gcgaagaacc ttacctgggc tagacaacac tggacagccc cagaaatggg 960 
gtcttcccgc aagggactgg tggttcaggt gctgcatggc tgtcgtcagc tcgtgtcgtg 1020 
agatgttggg ttaagtcccg caacgagcgc aacccctgtc tctagttgct accattaagt 1080 
tgagcactct agagagactg cccgtgttaa acgggaggaa ggtggggacg acgtcaagtc 1140 
ctcatggccc ttatgtccag ggctacacac gtgctacaat ggacagtaca aagggctgcg 1200 
aacccgtgag ggggagccaa tcccaaaaag ctgttctcag ttcggattgg agtctgcaac 1260 
tcgactccat gaaggcggaa tcgctagtaa tcgcggatca gcatgcc 1307 
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<210> 89 
<211> 1305 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 89 

gggagcaatc cccaagtaga gcggcgaacg ggtgagtaac gcgtgggtaa tctgcctccg 60 
agtggggaac aacatcggga aactggtgct aataccgcat aacatcgttg ggtcttcgga 120 
tctgacgatc aaagccgggg accgcaaggc ctggcgcttg gagaggagcc cgcgtccgat 180 
tagctagttg gtggggtaat ggcccaccaa ggcttcgatc ggtagccggc ctgagagggc 240 
ggacggccac actgggactg agacacggcc cagactccta cgggaggcag cagtggggaa 300 
tttttcgcaa tgggcgaaag cctgacgaag caacgccgcg tggaggatga gggccttcgg 360 
gtcgtaaact cctgtcgacc gggacgaaag taggatggcc taatacgccg atctattgac 420 
tgtaccggtg gaggaagcca cggctaactc tgtgccagca gccgcggtaa tacagaggtg 480 
gcaagcgttg ttcggaatta ctgggcgtaa agggcgcgta ggcggcttgg tcagtcccgt 540 
gtgaaatccc tcggctcaac tgaggaactg cacgggaaac tgcctggctt gagttcggga 600 
gagggaagtg gaattccggg tgtagcggtg aaatgcgtag atatccggag gaacaccggt 660 
ggcgaaggcg gcttcctgga ccgacactga cgctgaggcg cgaaagctag gggagcaaac 720 
gggattagat accccggtag tcctagctgt aaacgatgag tgctgggtgt agggggtatc 780 
aaccccccct gtgccgaagc taacgcatta agcactccgc ctggggagta cggtcgcaag 840 
gctgaaactc aaaggaattg acgggggccc gcacaagcgg tggagcatgt ggttcaattc 900 
gacgcaacgc gaagaacctt accggggttt gaactgtacg ggacagctct agagatagag 960 
tcttccttcg ggacccgtac agaggtgctg catggctgtc gtcagctcgt gtcgtgagat 1020 
gttgggttaa gtcccgcaac gagcgcaacc cttgcctcct gttgccatca ggtaaagctg 1080 
ggcactctgg agagactgcc ggtgataaac cggaggaagg tggggatgac gtcaagtcct 1140 
catggccttt atgccccggg ctacacacgt gctacaatgg ccggtacaaa gggtcgcaaa 1200 
accgcgaggt ggagctaatc ccaaaaagcc ggtcccagtt cggattgcag tctgcaactc 1260 
gactgcatga agttggaatc gctagtaatc gcggatcagc atgcc 1305 



<210> 90 
<211> 1299 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rOrganisme du sol 
<400> 90 

gggctttcgg gtcctgagta aagtggcgaa cgggtgagta acgcgtaggt aacctgacct 60 
cgagtgtgga ataacctggc gaaagccggg ctaataccgc atgacgtctt cgggtcttcg 120 
gacttgagga ccaaaggtgg cgagctttga gcgctgtcgc tcgagaaggg gcctgcgtcc 180 
cattagctag ttggtggggt gatggcctac caaggcgacg atgggtagcc gggctgagag 240 
gctgtccggc cacactggaa ccgagacacg gtccagactc ctacgggagg cagcagtggg 300 
gaatcttgcg caatggggga aaccctgacg caacgacgcc gcgtgggcga tgaaggcctt 360 
cgggtcgtaa agccctgtcg agcgggacga accgtgcgag ctctaacata gctcgtgcct 420 
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gacggtaccg ctagaggaag ccccggctaa 
ggggctagcg ttattcggaa ttattgggcg 
catgtgaaag ccctcggctc aaccggggaa 
ggagaggtga gtggaattcc cagtgtagcg 
agtggcgaag gcggctcact ggaccggtac 
aacgggatta gataccccgg tagtcctggc 
atcgacccct gccgtgctga agctaacgca 
aaggctgaaa ctcaaaggaa ttgacggggg 
ttcgacgcaa cgcgaagaac cttacctggg 
gggtcttcct tcgggacacc tgtagaggtg 
gatgttgggt taagtcccgc aacgagcgca 
cgggaactct agggggaccg ccggtgataa 
ctcatggcct ttatgtccag ggctacacac 
aaggcgcgag ccggagccaa tcccaaaaag 
ctcgactgca tgaaggtgga atcgctagta 



ctccgtgcca gcagccgcgg taatacggag 480 
taaagggcgt gtaggcggct ctgtgtgtcc 540 
ctgcatggga aactgcggag cttgagtccg 600 
gtgaaatgcg tagatattgg gaggaacacc 660 
tgacgctgag acgcgaaagc caggggagca 720 
tgtaaacgat gagcacttgg tgtggcgggt 780 
ttaagtgctc cgcctgggga gtacggccgc 840 
cccgcacaag cggtggagca tgtggttcaa 900 
tttgaactgc aggtgacagc ccctgaaagg 960 
ccgcatggct gtcgtcagct cgtgtcgtga 1020 
acccctactc ctagttgcca gcggctcggc 1080 
accggaggaa ggtggggatg acgtcaagtc 1140 
gtgctacaac ggacggtaca aagggctgcg 1200 
ccgttctcca gtgcggattg cagtctgcaa 1260 
atcgcggat 1299 



<210> 91 
<211> 1296 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 91 

atgtctggta gcaataccag atgatggcaa gtggcggacg ggtgagtaat acgtagggat 60 
ctgcccagaa gagggggaca acccggggaa actcgggcta ataccgcata ctattctgag 120 
gaagaaagct tggcgcaagc caggcgcttt tggaggaacc tacgtccgat tagctagttg 180 
gtgaggtaaa ggctcaccaa ggcagagatc ggtagctggt ctgagaggat gaccagccac 240 
actgggactg agacacggcc cagactccta cgggaggcag cagtggggaa tattggacaa 300 
tgggggcaac cctgatccag cgatgccgcg tgtgtgaaga aggccttcgg gttgtaaagc 360 
actttagttg gggaagaagt aatgtttttt aatagagagc attgttgacg gtacccaaag 420 
aataagcacc ggctaactct gtgccagcag ccgcggtaat acagagggtg caagcgttaa 480 
tcggagttac tgggcgtaaa gggcgcgtag gcggtgttgc aagtgagatg tgaaatccct 540 
gggcttaacc taggaaccgc attttagact gcaatgctag agtacagtag agggtagtgg 600 
aatttccggt gtagcggtga aatgcgtaga gatcggaagg aacaccagtg gcgaaggcga 660 
ctacctggac tgacactgac gctgaggcgc gagagcgtgg ggagcaaaca ggattagata 720 
ccctggtagt ccacgctgta aacgatgaga actagatgtt ggtgcgcgcg agcgcacaag 780 
tatcgaagct aacgcgataa gttctccgcc tggggagtac ggccgcaagg ttaaaactca 840 
aaggaattga cgggggcccg cacaagcggt ggagcatgtg gtttaattcg atgcaacgcg 900 
aggaacctta cctacccttg acatccacag aatttgatag agatatcgaa gtgccgaaag 960 
gaactgtgag acaggtgctg catggctgtc gtcagctcgt gttgtgagat gttgggttaa 1020 
gtcccgtaac gagcgcaacc cttatcctta gttgccaaca cgtaatggtg gggactctaa 1080 
ggagactgcc ggtgaagaac cggaggaagg tggggacgac gtcaagtcat catggccttt 1140 
atgggtaggg ctacacacgt gctacaatgg ggcgtacaga gggttgccaa cctgcgaagg 1200 
ggagccaatc ccggaaagcg cctcgtagtc cagattgaag tctgcaactc gacttcatga 1260 
agtcggaatc gctagtaatc gcgaatcaga acgtcc 1296 
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<210> 92 
<211> 1250 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organiame du sol 
<400> 92 

gtctggtagc aataccagat gatggcaagt ggcggacggg tgagtaatac gtagggatct 60 
gcccagaaga gggggacaac ccggggaaac tcgggctaat accgcatact attctgagga 120 
aaaaagcttg gcgcaagcca ggcgcttttg gaggaaccta cgtccgatta gctagttggt 180 
gaggtaaagg ctcaccaagg cagagatcgg tagctggtct gagaggatga ccagccacac 240 
tgggactgag acacggccca gactcctacg ggaggcagca gtggggaata ttggacaatg 300 
ggggcaaccc tgatccagcg atgccgcgtg tgtgaagaag gccttcgggt tgtaaagcac 360 
tttagttggg gaagaagtaa tgttttttaa tagagagcat tgttgacggt acccaaagaa 420 
taagcaccgg ctaactctgt gccagcagcc gcggtaatac agagggtgca agcgttaatc 480 
ggagttactg ggcgtaaagg gcgcgtaggc ggtgttgcaa gtgagatgtg aaatccctgg 540 
gcttaaccta ggaaccgcat tttagactgc aatgctagag tacagtagag ggtagtggaa 600 
tttccggtgt agcggtgaaa tgcgtagaga tcggaaggaa caccagtggc gaaggcgact 660 
acctggactg acactgacgc tgaggcgcga gagcgtgggg agcaaacagg attagatacc 720 
ctggtagtcc acgctgtaaa cgatgagaac tagatgttgg tgcgcgcgag cgcacaagta 780 
tcgaagctaa cgcgataagt tctccgcctg gggagtacgg ccgcaaggtt aaaactcaaa 840 
ggaattgacg ggggcccgca caagcggtgg agcatgtggt ttaattcgat gcaacgcgaa 900 
gaaccttacc tacccttgac atccacagaa tttgatagag atatcgaagt gccgaaagga 960 
actgtgagac aggtgctgca tggctgtcgt cagctcgtgt tgtgagatgt tgggttaagt 1020 
cccgtaacgg gcgcaaccct tatccttagt tgccaacacg taatggtggg gactctaagg 1080 
agactgccgg tgaagaaccg gaggaaggtg gggacgacgt caagtcatca tggcctttat 1140 
gggtagggct acacacgtgc tacaatgggg cgtacagagg gttgccaacc tgcgaagggg 1200 
agccaatccc ggaaagcgcc tcgtagtcca gattgaagtc tgcaactcga 1250 



<210> 93 
<211> 1545 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 93 

ccaggaaaca gctatgacca tgattacgcc aagcttggta ccgagctcgg atccactagt 60 
aacggccgcc agtgtgctgg aattcgccct tcaggcctaa cacatgcaag tcgaacggca 120 
gcacagggga gcttgctccc tgggtggcga gtggcggacg ggtgaggaat acatcggaat 180 
ctgcccagtc gtgggggata acctcgggaa accgggacta ataccgcata cgaccttagg 240 
gtgaaagcgg aggaccgcaa ggcttcgcgc gattggatga gccgatgtcg gattagcttg 300 
ttggcggggt aacggcccac caaggcgacg atccgtagct ggtctgagag gatgatcagc 360 
cacactggaa ctgagacacg gtccagactc ctacgggagg cagcagtggg gaatattgga 420 
caatgggcgc aagcctgatc cagccatgcc gcgtgagtga agaaggcctt cgggttgtaa 480 
agctcttttg tccggaaaga aaagctttcg gttaataccc ggaagtcctg acggtaccgg 540 
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aagaataagc accggctaac ttcgtgccag cagccgcggt aatacgaagg gtgcaagcgt 600 

tactcggaat tactgggcgt aaagcgtgcg taggtggttt gttaagtctg atgtgaaagc 660 

cctgggctca acctgggaat tgcactggat actggcaggc tagagtgcgg tagaggatgg 720 

cggaattccc ggtgtagcag tgaaatgcgt agagatcggg aggaacatct gtggcgaagg 780 

cggccatctg gaccagcact gacactgagg cacgaaagcg tggggagcaa acaggattag 840 

ataccctggt agtccacgcc ctaaacgatg cgaactggat gttgggagca actaggctct 900 

cagtatcgaa gctaacgcgt taagttcgcc gcctggggag tacggtcgca agactgaaac 960 

tcaaaggaat tgacgggggc ccgcacaagc ggtggagtat gtggtttaat tcgatgcaac 1020 

gcgaagaacc ttacctggcc ttgacatcca cggaacttac cagagatggt ttggtgcctt 1080 

cggnaaccgt gagacaggtg ctgcatggct gtcgtcagct cgtgtcgtga gatgttgggt 1140 

taagtcccgc aacgagcgca acccttgtcc ttagttgcca gcacgtaatg gtgggaactc 1200 

taaggagact gccggtgaca aaccggagga aggtggggat gacgtcaagt catcatggcc 1260 

cttacggcca gggctacaca cgtactacaa tggtcggtac agagggttgc aaagccgcga 1320 

ggtagagcca atcccagaaa accgatccca gtccggatcg aagtctgcaa ctcgacttcg 1380 

tgaagtcgga atcgctagta atcgcggatc agaatgccgc ggtgaatacg ttcccgggcc 1440 

ttgtacacac cgcccaaggg cgaattctgc agatatccat cacactggcg gccgctcgag 1500 

catgcatcta gagggcccaa ttcgccctat agtgagtcgt attac 1545 



<210> 94 
<211> 1549 
<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :Organisme du sol 



<400> 94 

ttttaaaccg acggccagtg aattgtaata 
agatgcatgc tcgagcggcc gccagtgtga 
taacacatgc aagtcgagcg gcagcgcggg 
ggaatgcatc ggaatctacc ctgtcgtggg 
gcatacgacc gagaggtgaa agtgggggac 
tgccggatta gctagttggt gaggtaaagg 
gagaggatga tcagccacat tgggactgag 
gtggggaata ttggacaatg ggcgcaagcc 
gccttcgggt tgtaaagcac ttttgttcgg 
ggatgacggt accgaaagaa taagcaccgg 
gaagggtgca agcgttactc ggaatcactg 
gtctgctgtg aaagccctgg gctcaacctg 
tgtgatagag gatggtggaa ttcccggtgt 
caccagtggc gaaggcggcc atctggatca 
agcaaacagg attagatacc ctggtagtcc 
gagcaacttg gctctcagtg tcgaagctaa 
tcgcaagact gaaactcaaa ggaattgacg 
ttaattcgat gcaacgcgaa gaaccttacc 
atggtttggt gccttcggaa ccgtgagaca 
gtgagatgtt gggttaagtc ccgcaacgag 
aatggtggga actctaagga gactgccggt 
aagtcatcat ggcccttacg gccagggcta 



cgactcacta tagggcgaat tgggccctct 60 
tggatatctg cagaattcgc ccttcaggcc 120 
gcaacctggc ggcgagcggc ggacgggtga 180 
ggataacgta gggaaactta cgctaatacc 240 
cgcaaggcct cacgcgatag gatgagccga 300 
ctcaccaagg cgacgatccg tagctggtct 360 
acacggccca aactcctacg ggaggcagca 420 
tgatccagcc atgccgcgtg tgtgaagaag 480 
gaagaaatcg tgcgggttaa tacccagtac 540 
ctaacttcgt gccagcagcc gcggtaatac 600 
ggcgtaaagc gtgcgtaggc ggttggttaa 660 
ggaactgcag tggatactgg ccagctagag 720 
agcggtgaaa tgcgtagaga tcgggaggaa 780 
acactgacgc tgaggcacga aagcgtgggg 840 
acgccctaaa cgatgcgaac tggacgttgg 900 
cgcgctaagt tcgccgcctg gggagtacgg 960 
ggggcccgca caagcggtgg agtatgtggt 1020 
tggccttgac atccacggaa cttaccagag 1080 
ggtgctgcat ggctgtcgtc agctcgtgtc 1140 
cgcaaccctt gtccttagtt gccagcacgt 1200 
gacaaaccgg aggaaggtgg ggatgacgtc 1260 
cacacgtact acaatggtcg gtacaagagg 1320 
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gttgcaaagc ccgcgaggta gagccaatcc cagaaaaccc gatcccagtc ccggatcgaa 1380 
gtctgcaact cgacttcgtg aagtcggaat cgctagtaat cgcggatcag aatgccgcgg 1440 
tgaatacgtt cccgggcctt gtacacaccg cccaagggcg aattccagca cactggcggc 1500 
cgttactagt ggatccgagc tcggtaccaa gcttggcgta atcatggtc 1549 



<210> 95 
<211> 1276 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 95 

ctggcggcga gcggcggacg ggtgaggaat acatcggaat ctacccagtc gtgggggata 60 
acgtagggaa acttacgcta ataccgcata cgacctgagg gtgaaagcag gggatcgcaa 120 
gaccttgcgc gattggatga gccgatgtcc gattagctag ttggtgaggt aaaggctcac 180 
caaggcgacg atcggtagct ggtctgagag ggtgatcagc cacactggaa ctgagacacg 240 
gtccagactc ctacgggagg cagcagtggg gaatattgga caatgggcgc aagcctgatc 300 
cagccatgcc gcgtgtgtga agaaggcctt cgggttgtaa agcacttttg ttcgggaaga 360 
aatcttccga gttaatacct cgggaggatg acggtaccgg aagaataagc accggctaac 420 
ttcgtgccag cagccgcggt aatacgaagg gtgcaagcgt tactcggaat tactgggcgt 480 
aaagcgtgcg taggtggttc gttaagtctg ccgtgaaagc cccgggctca acctgggaat 540 
tgcggtggat actggcggac tagagtgcgg tagagggtgg tggaattccc ggtgtagcag 600 
tgaaatgcgt agagatcggg aggaacatct gtggcgaagc ggccacctgg accagcactg 660 
acactgaggc acgaaagcgt ggggagcaaa caggattaga taccctggta gtccacgccc 720 
taaacgatgc gaactggacg ttgggagcaa ctaggctctc agtgtcgaag ctaacgcgtt 780 
aagttcgccg cctggggagt acggtcgcaa gactgaaact caaaggaatt gacgggggcc 840 
cgcacaagcg gtggagtgtg tggtttaatt cgatgcaacg cgaagaacct tacctggcct 900 
tgacatccac ggaatccttt agagatagag gagtgccttc gggaaccgtg agacaggtgc 960 
tgcatggctg tcgtcagctc gtgtcgtgag atgttgggtt aagtcccgca acgagcgcaa 1020 
cccttgtcct tagttgccag cgcgtaatgg cgggaactct aaggagactg ccggtgacaa 1080 
accggaggaa ggtggggatg acgtcaagtc atcatggccc ttacggccag ggctacacac 1140 
gtactacaat ggtggggaca gagggtcgcg aagccgcgag gtggagccaa tcccagaaac 1200 
cccatcctag tccggatcgg agtctgcaac tcgactccgt gaagtcggaa tcgctagtaa 1260 
tcgcggtcag catgcc 1276 



<210> 96 
<211> 1306 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 96 

cagggatcag tagagtggca aacgggtgag taacgcgtgg gcgacctacc ttcgagtggg 60 
ggataacctt ccgaaaggag ggctaatacc gcatgacatc ccgtgtttgg atacacggac 120 
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atcaaagccg gggatcgcaa gacctggcgc 
ttggtgaggt cacggctcac caaggctccg 
cacactggga ctgagacacg gcccagactc 
caatgggcgc aagcctgacg acgcaacgcc 
actcctttcg accgagatga agacccgccg 
agggaagaag ccccggctaa ctccgtgcca 
ttgttcggaa ttactgggcg taaagggttc 
ccctcagctc aactggggaa ctgcgtctga 
gcggaattcc aggtgtagcg gtgaaatgcg 
gcggcgttct ggactgcaac tgacactgag 
gataccccgg tagtcctagc cctaaacgat 
gccgtgccgc agttaacgcg ataagcattc 
ctcaaaggaa ttgacggggg cccgcacaag 
cgcgaagaac cttacctagg ctcgaagtgc 
aagaacatct gtagaggtgc tgcatggctg 
aagtcccgca acgagcgcaa cccttgtttc 
ggagagactg ccggtgacaa accggaggaa 
ttatgtctag ggctacacac gtgctacaat 
ggtgagccaa tcgcagaaag ccggtctcag 
gaagttggaa tcgctagtaa tcgcggatca 



ttggagaggg gcccgcgtcc gattagctag 180 
atcggtatcc ggcctgagag ggcggacgga 240 
ctacgggagg cagcagtggg gaattgttcg 300 
gcgtggagga tgaagacctt cgggtcgtaa 360 
gcctaatacg ccggcggatt gacagtatcg 420 
gcagccgcgg taatacgggg ggggcaagcg 480 
gtaggtggct cgctaagtca gacgtgaaat 540 
gactggcaag cttgagtgca ggagaggaac 600 
tagatatctg gaggaacacc ggtggcgaag 660 
gaacgaaagc taggggagca aacgggatta 720 
gaatgcttgg tgtggcgggt atcgatccct 780 
cgcctgggga gtacggtcgc aaggctgaaa 840 
cggtggagca tgtggttcaa ttcgacgcaa 900 
agatgaccat cggtgaaagc cgactttcgc 960 
tcgtcagctc gtgtcgtgag atgttgggtt 1020 
ctgttgccat caggttaagc tgggcactct 1080 
ggtggggatg acgtcaagtc agcatggcct 1140 
ggccggtaca aagcgctgca aacccgcgag 1200 
ttcggatagc aggctgcaac tcgcctgctt 1260 
gcatgccgcg gtgaat 1306 



<210> 97 
<211> 1300 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 97 

cccgcagggt gagtagatgg caaacgggtg agtaacacgt gggtgacctg cctcagagtg 60 
ggggataacg acccgaaagg gtcgctaata ccgcataaca tcctgtcttt ggatagacgg 120 
agatcaaagc cggggatcgc aagacctggc gcttagagag gggcccgcgg ccgattagct 180 
agttggtgag gtaacggctc accaaggcaa cgatcggtat ccggcctgag agggcggacg 240 
gacacactgg gactgagaca cggcccagac tcctacggga ggcagcagtg gggaattgtt 300 
cgcaatgggc gcaagcctga cgacgcaacg ccgcgtggag gatgaagatc. ttcgggtcgt 360 
aaactccttt cgatcgggaa gaacgcctct ggtgtgaaca ccatcagagg gtgacggtac 420 
cgagagaaga agccccggct aactctgtgc cagcagccgc ggtaatacag ggggggcaag 480 
cgttgttcgg aattactggg cgtaaagggc tcgtaggcgg ccggctaagt ccgacgtgaa 540 
atccccaggc ttaacctggg aactgcgtcg gatactggcg ggcttgaatc cgggagaggg 600 
atgcggaatt ccaggtgtag cggtgaaatg cgtagatatc tggaggaaca ccggtggcga 660 
aggcggcatc ctggaccggt attgacgctg aatagcgaaa gccaggggag caaacgggat 720 
tagatacccc ggtagtcctg gccctaaacg atgaatgttt ggtgtggcgg gtatcgatcc 780 
ctgccgtgcc gaagctaacg cattaaacat tccgcctggg gagtacggtc gcaaggctga 840 
aactcaaagg aattgacggg ggcccgcaca agcggtggag catgtggttc aattcgacgc 900 
aacgcgaaga accttaccca ggctcgaacg gcattggaca tccggcgaaa gccggctccc 960 
gcaagggccg atgtcgaggt gctgcatggc tgtcgtcagc tcgtgtcgtg agatgttggg 1020 
ttaagtcccg caacgagcgc aacccttgtc cgctgttgcc atcacgttat ggtgggcact 1080 
ctgcggagac tgccggtgat aaaccggagg aaggtgggga tgacgtcaag tcagcatggc 1140 
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ctttatgtct ggggctacac acgtgctaca atggccggta caaaccgttg cgatctcgca 1200 
agagtgagct aatcggagaa agccggtctc agttcggatt gcaggctgca actcgcctgc 1260 
atgaagttgg aatcgctagt aatcgcggat cagcacgccg 1300 



<210> 98 
<211> 1233 
<212> ADN 

<213> Organirae Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 98 

acggagcggc agacgggaga gtaacacgtg ggaacgtgcc ctttggttcg gaacaacaca 60 
gggaaacttg tgctaatacc ggataagccc ttacggggaa agatttatcg ccaaaggatc 120 
ggcccgcgtc tgattagcta gttggtgagg taacggctca ccaaggcgac gatcagtagc 180 
tggtctgaga ggatgatcag cctcactggg actgagacac ggcccagact cctacgggag 240 
gcagcagtgg ggaatattgg acaatgggcg caagcctgat ccagccatgc cgcgtggatg 300 
atgaaggccc tagggttgta aagtcctttc ggcggggaag ataatgacgg tacccgcaga 3 60 
agaagccccg gctaacttcg tgccagcagc cgcggtaata cgaagggggc tagcgttgct 420 
cggaatcact gggcngtaaa gcgcacgtag gcggcttttt aagtcagggg tgaaatcctg 480 
gagctcaact ccagaactgc ctttgatact gagaagcttg agtccgggag aggtgagtgg 540 
aactgcgagt gtagaggtga aattcgtaga tattcgcaag aacaccagtg gcgaaggcgg 600 
ctcactggcc cggtactgac gctgaggtgc gaaagcgtgg ggagcaaaca ggattagata 660 
ccctggtagt ccacgctgta aacgatggat gctagccgtt gtcgggttta ctcgtcagtg 720 
gcgcagctaa cgcattaagc atcccgcctg gggagtacgg tcgcaagatt aaaactcaaa 780 
ggaattgacg ggggcccgca caagcggtgg agcatgtggt tcaattcgaa gcaacgcgca 840 
gaaccttacc agcccttgac atgtcccgta tgagtaccag agatggaact cttcagttcg 900 
gctggcggga acacaggtgc tgcatggctg tcgtcagctc gtgtcgtgag atgttgggtt 960 
aagtcccgca acgagcgcaa ccctcgccct tagttgccat catttagttg ggcactctaa 1020 
ggggactgcc ggtgataagc cgcgaggaag gtggggatga cgtcaagtcc tcatggccct 1080 
tacgggctgg gctacacacg tgctacaatg gcggtgacag tgggatgcag aggggtaacc 1140 
ccgagcaaat ctcaaaaagc cgtctcagtt cggattgtgc tctgcaactc gagcacatga 1200 
agttggaatc gctagtaatc gcagatcagc acg 1233 



<210> 99 
<211> 1304 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisrae du sol 
<400> 99 

cgaaatcccg cagggatcag tagagtggca aacgggtgag taacacgtgg gtgacctgcc 60 
ttcgagtggg ggataacgtc ccgaaaggga cgctaatacc gcatgacatc ctgctcttga 120 
acgagtggag atcaaagctg gggatcgcaa gacctagcgc tcaaagaggg gcccgcgcct 180 
gattagctag ttggtggggt aacggctcac caaggcgacg atcagtatcc ggcctgagag 240 
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ggcggacgga cacactggga ctgagacacg 
gaattgttcg caatgggcgc aagcctgacg 
cgggtcgtaa actcctttcg atcgagacga 
gacggtaccg agagaagaag ccccggctaa 
ggggcaagcg ttgttcggaa ttactgggcg 
gacgtgaaat ccctcggctt aaccggggaa 
ggagagggat gcggaattcc aggtgtagcg 
ggtggcgaag gcggcatcct ggaccaattc 
aacgggatta gataccccgg tagtcctggc 
atcgatccct gccgtgccga agctaacgca 
aaggctgaaa ctcaaaggaa ttgacggggg 
ttcgacgcaa cgcgaagaac cttacccagg 
gagcttccgc aaggacactc gtagaggtgc 
atgttgggtt aagtcccgca acgagcgcaa 
tgggcactct gcaaagactg ccggtgataa 
agcatggcct ttatgtctgg ggctacacac 
aaaccgtaag gtcgagctaa tcggagaaag 
tcgccggcgt gaagttggaa tcgctagtaa 



gcccagactc ctacgggagg cagcagtggg 300 
acgcaacgcc gcgtggagga tgaagatctt 360 
acggcctccg ggtgaacaat ccggaggagt 420 
ctccgtgcca gcagccgcgg taatacgggg 480 
taaagggctc gtaggcggcc aactaagtca 540 
ctgcgtctga tactggatgg ctagaggttg 600 
gtgaaatgcg tagatatctg gaggaacacc 660 
tgacgctgag gagcgaaagc caggggagca 720 
cctaaacgat gaatgcttgg tgtggcgggt 780 
ttaagcattc cgcctgggga gtacggtcgc 840 
cccgcacaag cggtggagca tgtggttcaa 900 
cttgaacagc gagtgaccac tcctgaaaag 960 
tgcatggctg tcgtcagctc gtgtcgtgag 1020 
cccttgtttg ctgttgccat cacgttatgg 1080 
accggaggaa ggtggggatg acgtcaagtc 1140 
gtgctacaat ggccggtaca aaccgtcgca 1200 
ccggtctcag ttcggatcgt cggctgcaac 1260 
tcgcggatca gcac 1304 



<210> 100 
<211> 1197 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 100 

tctagtggcg cacgggtgcg taacgcgtgg gaatctgccc ttgggttcgg gataacagtt 60 
ggaaacgact gctaataccg gatgatgtct tcggaccaaa gatttatcgc ccagggatga 120 
gcccgcgtcg gattagctag ttggtgaggt aaaggctcac caaggcgacg atccgtagct 180 
ggtctgagag gatgatcagc cacactggga ctgagacacg gcccagactc ctacgggagg 240 
cagcagtggg gaatattgga caatgggcga aagcctgatc cagcaatgcc gcgtgagtga 300 
tgaaggcctt agggttgtaa agctcttttg cccgggatga taatgacagt accgggagaa 360 
taagccccgg ctaactccgt gccagcagcc gcggtaatac ggagggggct agcgttgttc 420 
ggaattactg ggcgtaaagc gcacgtaggc ggctttgtaa gttagaggtg aaagcccgga 480 
gctcaactcc ggaactgcct ttaagactgc atcgcttgaa cgtcggagag gtaagtggaa 540 
ttccgagtgt agaggtgaaa ttcgtagata ttcggaagaa caccagtggc gaaggcgact 600 
tactggacga ctgttgacgc tgaggtgcga aagcgtgggg agcaaacagg attagatacc 660 
ctggtagtcc acgccgtaaa cgatgatgac tagctgtcgg ggctcatgga gtttcggtgg 720 
cgcagctaac gcgttaagtc atccgcctgg ggagtacggc cgcaaggtta aaactcaaag 780 
aaattgacgg gggcctgcac aagcggtgga gcatgtggtt taattcgaag caacgcgcag 840 
aaccttacca gcgtttgaca tggtaggacg gtttccagag atggattcct tcccttacgg 900 
gacctacaca caggtgctgc atggctgtcg tcagctcgtg tcgtgagatg ttgggttaag 960 
tcccgcaacg agcgcaaccc tcgtctttag ttgctaccat ttagttgggc actctaaaga 1020 
aactgccggt gataagccgg aggaaggtgg ggatgacgtc aagtcctcat ggcccttacg 1080 
cgctgggcta cacacgtgct acaatggcgg tgacagtggg cagcaaactc gcgagagtga 1140 
gcaaatcccc aaaaaccgtc tcagttcgga ttgttctctg caactcgaga gcatgaa 1197 
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<210> 101 
<211> 1352 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 101 

cgacggccag tgaattgtaa tacgactcac tatagggcga attgggccct ctagatgcat 60 
gctcgagcgg ccgccagtgt gatggatatc tgcagaattc gcccttcagg cctaacacat 120 
gcaagtcgca cgagaaaggg cttcggcccc ggtacagtgg cgcacgggtg agtaacacgt 180 
aggcaatctc ccctcgagtg gtggataacc ttccgaaagg agggctaata cagcatgaga 240 
ccacgagctc gcagagcttg tggccaaagc ggacctcttc ttgaaagttc gcgcttgagg 300 
atgagcctgc ggcccatcag ctagttggta gggtaatggc ctaccaaggc taagacgggt 360 
agctggtctg agaggacgga cagccacact ggaactgaga cacggtccag actcctacgg 420 
gaggcagcag tggggaatct tgcgcaatgg acgaaagtct gacgcagcga cgccgcgtga 480 
gcgatgaagg ccttcgggtt gtaaagctct' gtggggagag acgaataagg tgcagctaat 540 
acctgcatcg atgacggtat ctccttagca agcaccggct aactctgtgc cagcagccgc 600 
ggtaagacag agggtgcaaa cgttgttcgg aattactggg cgtaaagcgc gtgtaggcgg 660 
ctgtgtaagt cgggcgtgaa atcccatggc tcaaccatgg aagtgcaccc gaaactgcgt 720 
agctagagtc ctggagagga aggtggaatg cttggtgtag aggtgaaatt cgtagatatc 780 
aagcggaaca ccggtggcga agcggccttc tggacagtga ctgacgctga gacgcgaaag 840 
cgtggggagc aaacaggatt agataccctg gtagtccacg ccgtaaacga tgaatgctag 900 
acgctggggt gcatgcactt cggtgtcgcc gctaacgcat taagcattcc gcctggggag 960 
tacggccgca aggttaaaac tcaaaggaat tgacgggggc ccgcacaagc ggtggagcat 1020 
gtggtttaat tcgaagcaac gcgcaaacct taccaaccct tgacatgtcc attgccggtc 1080 
cgagagattg gaccttcagt tcggctggat ggaacacagg tgctgcatgg ctgtcgtcag 1140 
ctcgtgtcgt gagatgttgg gttaagtccc gcaacgagcg caacccctac cgccagttgc 1200 
catcattcag ttgggcactc tggtggaact gccggtgaca agccggagga agcggggatg 1260 
acgtcaagtc ctcatggccc ttatgggttg ggctacacac gtgctacaat ggcggtgaca 1320 
gtgggacgcg aagtccaaga tggacaaatc cc 1352 



<210> 102 
<211> 1361 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 102 

aacagctatg accatgatta cgccaagctt ggtaccgagc tcggatccac tagtaacggc 60 
cgccagtgtg ctggaattcg cccttcaggc ctaacacatg caagtcgaac ggatccttcg 120 
ggattagtgg cggacgggtg agtaacacgt gggaacgtgc cctttggttc ggaacaactc 180 
agggaaactt gagctaatac cggataagcc tttcgaggga aagatttatc gccattggag 240 
cggcccgcgt aggattagct agttggtgag gtaaaagctc accaaggcga cgatccttag 300 
ctggtctgag aggatgatca gccacattgg gactgagaca cggcccaaac tcctacggga 360 
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ggcagcagtg gggaatcttg cgcaatgggc 
gatgaaggcc ttagggttgt aaagctcttt 
aagaagcccc ggctaacttc gtgccagcag 
tcggaattac tgggcgtaaa gcgcacgtag 
gagctcaact ctggaactgc ctttgatact 
aattccgagt gtagaggtga aattcgtaga 
cttactggtc cattactgac gctgaggtgc 
ccctggtagt ccacgccgta aacgatgaat 
gcgcagctaa cgcattaaac attccgcctg 
ggaattgacg ggggcccgca caagcggtgg 
gaaccttacc agctctfcgac attcggggtt 
gctggcccca gaacaggtgc tgcatggctg 
aagtcccgca acgagcgcaa ccctcgccct 
ggggactgcc ggtgataagc cgagaggaag 
tacgggctgg gctacacacg tgctacaatg 
tcgagctaat ctccaaaagc catctcagtt 
gttggaatcg ctagtaatcg cagatcagca 



gcaagcctga tccagccatg ccgcgtgagt 420 
caccggagaa gataatgacg gtatccggag 480 
ccgcggtaat acgaaggggg ctagcgttgt 540 
gcggatattt aagtcagggg tgaaatccca 600 
gggtatcttg agtatggaag aggtaagtgg 660 
tattcggagg aacaccagtg gcgaaggcgg 720 
gaaagcgtgg ggagcaaaca ggattagata 780 
gttagccgtc gggcagtata ctgttcggtg 840 
gggagtacgg tcgcaagatt aaaactcaaa 900 
agcatgtggt ttaattcgaa gcaacgcgca 960 
tgggcagtgg agacattgtc cttcagttag 1020 
tcgtcagctc gtgtcgtgag atgttgggtt 1080 
tagttgccag catttagttg ggcactctaa 1140 
gtggggatga cgtcaagtcc tcatggccct 1200 
gtggtgacag tgggcagcga gacagcgatg 1260 
cggattgcat ctgcaactcg agtgcatgaa 1320 
tgctgcggtg a 1361 



<210> 103 
<211> 1300 
<212> ADN 

<213> Organirae Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 103 

catgtttagt agcaatacta aatgatgacg agcggcggac gggtgaggaa cacgtaggaa 60 
cctgcccaag agagggggac aaccaaggga aactttggct aataccgcat aatctctacg 120 
gagaaaagtt gcccgtaagg gtggcgcttt tggaggggcc tgcgtccgat tagttagttg 180 
gtgaggtaat agctcaccaa gactgtgatc ggtaactggt ctgagaggac gaccagtcac 240 
actgggactg agacacggcc cagactccta cgggaggcag cagtggggaa tcttggacaa 300 
tgggggcaac cctgatccag cgatgccgcg tgggtgaaga aggccttcgg gttgtaaagc 360 
cctttaggcg gggaagaagg atatgggatg aataagcctg tattttgacg gtacccgcag 420 
aataagcacc ggcaaactct gtgccagcag ccgcggtaat acagagggtg cgagcgttaa 480 
tcggatttac tgggcgtaaa gggcgcgtag gcggttgtgt gagtgtgatg tgaaagcccc 540 
gggctcaacc tgggaagtgc atcgcaaacg acacaactgg agtatatgag agggtggcgg 600 
aatttccggt gtagcggtga aatgcgtaga gatcggaagg aacgtcgatg gcgaaggcag 660 
ccacctggca taatactgac gctgaggcgc gaaagcgtgg ggagcgaaca ggattagata 720 
ccctggtagt ccacgccgta aacgatgaga actagatgtt ggagggggaa cccttcagta 780 
tcgaagctaa cgcgataagt tctccgcctg ggaagtacag tcgcaagact gaaactcaaa 840 
agaattgacg ggggcccgca caagcggtgg agcatgtggt ttaattcgat gcaacgcgaa 900 
gaaccttacc tacccttgac atcctgcgaa tcttgccgag aggtgagagt gccgcaagga 960 
gcgcagagac aggtgctgca tggctgtcgt cagctcgtgt tgtgagatgt tgggttaagt 1020 
cccgtaacga gcgcaaccct tgtccttagt tgccatcatt tagttgggga ctctaaggag 1080 
accgccggtg atgaaccgga ggaaggcggg gacgacgtca agtcatcatg gcctttatgg 1140 
gtagggctac acacgtgcta caatggggcg tacagagggt cgccaacccg cgagggggag 1200 
ccaatctctt aaagcgtctc gtagtccgga ttggagtctg caactcgact ccatgaagtc 1260 
ggaatcgcta gtaatcgcgg atcagcagtg ccgcggtgaa " 1300 
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<210> 104 
<211> 1250 
<212> ADN 

<213> Organ'ime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 104 

tgtagcaata catcagtggc agacgggtga gtaacacgtg ggaaccttcc tcgttgtacg 60 
ggacaactca gggaaacttg agctaatacc gtatacgtcc gagaggagaa agatttatcg 120 
caatgagacg ggcccgcgtc ggattagcta gttggtaagg taacggctta ccaaggcgac 180 
gatccgtagc tgatctgaga ggatgatcag ccacactggg actgagacac ggcccagact 240 
cctacgggag gcagcagtgg ggaatcttgg acaatgggcg caagcctgat ccagccatgc 300 
cgcgtgagtg aagaaggcct tagggttgta aagctctttt gccagggacg ataatgacgg 360 
tacctgagaa taagccccgg caaacttcgt gccagcagcc gcggtaatac gaagggggct 420 
agcgttgttc ggatttactg ggcgtaaagc gcacgtaggc gggtcgttaa gtcaggggtg 480 
aaatcccgga gctcaactcc ggaactgcct ttgatactgg cgaccttgag gctggaagag 540 
gttagtggaa ttcccagtgt agaggtgaaa ttcgtagata ttgggaagaa caccagtggc 600 
gaaggcggct aactggtcca gatctgacgc tgaggtgcga aagcgtgggg agcaaacagg 660 
attagatacc ctggtagtcc acgccgtaaa ctatgggtgc tagctgtcag cgggcttgct 720 
cgttggtggc gcagctaacg cattaagcac cccgcctggg gagtacggtc gcaagattaa 780 
aacttaaagg aattgacggg ggcccgcaca agcggtggag catgtggttt aattcgaagc 840 
aacgcgcaga accttaccaa cccttgacat cccgatcgcg gacaccagag atggagtcct 900 
tcagttcggc tggatcggag acaggtgctg catggctgtc gtcagctcgt gtcgtgagat 960 
gttgggttaa gtcccgcaac gagcgcaacc ctcgccttta gttgccatca tttagttggg 1020 
cactctaaag ggactgccgg tgataagccg gaggaaggtg gggatgacgt caagtcctca 1080 
tggcccttac gggttgggct acacacgtgc tacaatggcg gtgacaatgg gcagctactt 1140 
cgcaaggaga agctaatccc aaaaagccgt ctcagttcag attgcactct gcaactcggg 1200 
tgcatgaagt tggaatcgct agtaatcgct aatcagcagg tagcggtgaa 1250 



<210> 105 
<211> 1302 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 105 

ggcttcggct ccccggtaga gtggcggacg ggtgagtaac acgtgggtaa 
ggtggggaat aacccttcga aagaggggct aataccgcat aacgcagcgg 
tgacagttgt taaagtgggg gatcgcaaga cctcacgcct gaagaggagc 
ttagctagtt ggtgcggtaa tggcgtacca aggcggcgat cggtagccgg 
cggacggcca cactggcact gagagacggg ccagactcct acgggaggca 
attttgggca atgggcgcaa gcctgaccca gcaacgccgc gtgaaggacg 
gggatgtaaa cttcgaaagt tggggaagaa atccgtgtga ggataatgca 



tctgcctttg 60 
caccgaatgg 120 
ccgcgcccga 180 
cctgagaggg 240 
gcagtgggga 300 
aaatccctct 360 
cacgggatga 420 
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cggtacccaa cgtaagcccc ggctaactac 
caagcgttgt tcggaattac tgggcgtaaa 
tgaaagcccg gggctcaacc ccggaatgtc 
aggcatctgg aattcccagt gtagcggtga 
gcgaaggcgg gatgctgggc cgacactgac 
ggattagata ccccggtagt cctggcccta 
gaagtccccg cgtgccggag ctaacgcggt 
ggctgaaact caaaggaatt gacggggacc 
cgacgcaacg cgaagaacct tacctgggtt 
tttcccttcg ggggaggtag gacggtgctg 
gttgggttaa gtcccgcaac gagcgcaacc 
gcactctatt gggactgccg gtgacaaacc 
atggccttta tgtccagggc tacacacgtg 
ccgcgagggg gagccaatcg caaaaatccg 
actccatgaa gttggaatcg ctagtaatcg 



gtgccagcag ccgcggtaat acgtaggggg 480 
gggcgcgtag gcggtacgac aagtctggag 540 
tttggaaact gtcgaacttg agtgcggaag 600 
aatgcgtaga tattgggaag aacacctgag 660 
gctgaggcgc gaaagccagg ggagcgaacg 720 
aacgatggat acttggtgtg tggggttctc 780 
aagtatcccg cctggggagt acggtcgcaa 840 
cgcacaagcg gtggagcatg tggttcaatt 900 
aaatcctacc tcgtcgcctc agagatgagg 960 
catggctgtc gtcagctcgt gccgtgaggt 1020 
cttaccacta gttgccagcg gttcggccgg 1080 
ggaggaaggt ggggatgacg tcaagtcatc 1140 
ctacaatggc cggaacaaag cgcagcaaac 1200 
gtctcagttc ggattggagt ctgcaactcg 1260 
cggatcagca tg 1302 



<210> 106 
<211> 1281 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 106 

tgcttctctt gagagcggcg gacgggtgag taatgcctag gaatctgcct ggtagtgggg 60 
gataacgttc ggaaacggac gctaataccg catacgtcct acgggagaaa gcaggggacc 120 
ttcgggcctt gcgctatcag atgagcctag gtcggattag ctagttggtg aggtaatggc 180 
tcaccaaggc gacgatccgt aactggtctg agaggatgat cagtcacact ggaactgaga 240 
cacggtccag actcctacgg gaggcagcag tggggaatat tggacaatgg gcgaaagcct 300 
gatccagcca tgccgcgtgt gtgaagaagg tcttcggatt gtaaagcact ttaagttgga 360 
aggaagggca gtaaattaat actttgctgt tttgacgtta ccgacagaat aagcaccggc 420 
taactctgtg ccagcagccg cggtaataca gagggtgcaa gcgttaatcg gaattactgg 480 
gcgtaaagcg cgcgtaggtg gtttgttaag ttggatgtga aatccccggg ctcaacctgg 540 
gaactgcatt caaaactgac tgactagagt atggtagagg gtggtggaat ttcctgtgta 600 
gcggtgaaat gcgtagatat aggaaggaac accagtggcg aaggcgacca cctggactaa 660 
tactgacact gaggtgcgaa agcgtgggga gcaaacagga ttagataccc tggtagtcca 720 
cgccgtaaac gatgtcaact agccgttgga agccttgagc ttttagtggc gcagctaacg 780 
cattaagttg accgcctggg gagtacggcc gcaaggttaa aactcaaatg aattgagggg 840 
ggcccgcaca agcggtggag catgtggttt aattcgaagc aacgcgaaga accttaccag 900 
gccttgacat ccaatgaact ttctagagat agattggtgc cttcgggaac attgagacag 960 
gtgctgcatg gctgtcgtca gctcgtgtcg tgagatgttg ggttaagtcc cgtaacgagc 1020 
gcaacccttg tccttagtta ccagcacgac atggtgggca ctctaaggag actgccggtg 1080 
acaaaccgga ggaaggtggg gatgacgtca agtcatcatg gcccttacgg cctgggctac 1140 
acacgtgcta caatggtcgg tacagagggt tgccaagccg cgaggtggag ctaatcccac 1200 
aaaaccgatc gtagtccgga tcgcagtctg caactcgact gcgtgaagtc ggaatcgcta 1260 
gtaatcgcga atcagaaatg t 1281 
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<210> 107 
<211> 43 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle: amorce 
<400> 107 

cgctgcagat ttaaatatgc aacgcgtaag tcgatggcgt teg 

<210> 108 
<211> 51 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce 
<400> 108 

eggtcaaett aattaagata tctcgagaga tctattaata cgatacctgc 

<210> 109 
<211> 29 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle: amorce 
<400> 109 

aaaaagatat ctgacgtccc gaaggcgtg 



<210> 110 
<211> 32 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle: amorce 
<400> 110 

aaaaaagatc tggctaacta actaaaccga ga 



<210> 111 
<211> 36 
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<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce 
<400> 111 

gtgccgttaa ttaagctccg cgaagtcgct cttctt 36 



<210> 112 
<211> 36 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle -. amorce 
<400> 112 

gtgccgttaa ttaaccgctg cataaccctg cttcgg 3 6 



<210> 113 
<211> 42717 
<212> ADM 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : cosmide 
a26gl brin non codant 

<400> 113 

aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaacc gggccctgac 60 
gttcagaact ccccgcgaga atctctcggc agagcgcctg cacctcgact tcaccggcag 120 
tgtcgagatc gatgcaggtg caagcgaact cgggatgctc ggccgcgatg gtacgtccca 180 
gaccccacac cggtgcccgc gcgggcacca ccggcatctg cagatgctcc gcatgaacgc 240 
ccgccgtaat cagccagatt cgcggatgct gcgattcggc gtcggacgct tgtttcgtca 300 
gctgtatgcg tcccactccg aattcttgaa cgatgcgcaa aatgtcttcg caggcggttc 360 
cccccgcagc cgacggatcg gtctcatcct cggtctcatc caggctcccg cagtgaatga 420 
cgccccggta aggctgatcc ggtatctcgg catcgcgacc cgaaatcaca accgtgtttg 480 
tgcccagccc tcgcgccacc gcggctgcga tgccgccggc atcggcaatg accagccatg 540 
cacccgacac cgttgccgtt ggactctcgg ccagcagctg cggctcccat tccatagcgt 600 
ggaaccattc ggattggcgc tccagttcct gggcacgcag gccttggacc tcgaggatga 660 
cgtggccttc cgcatcacac agggtgacat cgccctcgag ccgccccgtc agccgcgcat 720 
gcaccctaag atcgccggcg ggtctgccga aacagtgcaa ccgttcgatg gcgacaggca 780 
cgcaaggacc ggcgctgcct tcgccgccaa gcgtcgcgcc cagcacctgc aaacaggcat 840 
cgagcaaggc aggatgaagc gtgtaaccgg actctgcttc gcgaacggca tccggcacgc 900 
tcagtcgcgc cactgcctcg ccgtcgcgcc gccacacttc cgcgatgccg cggaaggtgt 960 
cgccgtaatg catcccctgc gatgcgaagg ccgcatagaa gtcatcgccc tcgatgcgat 1020 
ccccaagtgt gggcaggctc accgtgggcg cgaccttgtc cggcgccgca gccatggtgc 1080 
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cgcgcgcgtg ctcggtccaa tcggaaccgc cttcggccag actggagatg cggaatgcgt 1140 
gtccctcgag tatgacctgc actcgcgagg cgcccgcgga aggaacaacc agcatttgtt 1200 
caaaccggat ctcttccagg ctgcagccac ccgcgaacac ttccttggct gcggccagcg 1260 
ccatctccac ataagcggca ccgggaagca ccacaagctc gttgagccgg tgatcggcga 1320 
gaaacggcag cgcatccaga gagagcacgg actcccagac gtgtgtgtcc ggcgccagcg 1380 
caatctcgac cttgcgaccg agcagcggat gaccgccaac tgccggcaaa cttcgccgcg 1440 
tcgaggtcgc gaaccagaag cgctcgcgct gccagggata cgtcggcaga tccaggcgcg 1500 
tgtcgggaga cgaagcgagc gcgcgccagt ccggacgctg cccattcacg tagagcgcgg 1560 
cgagcaactc gagcagctca cgccgctccg gttcgtcgcg gcgcagtacg gggcgaacca 1620 
gtccgtttat gccgagcgtc cgcagactat cctcgatcga cggcgtcagc acaggatgcg 1680 
gactgatctc caggaactgc gtgaactcat caccagccat cgcctgcaac gactcccaga 1740 
aacggactgg ctgtcgcaga ttggctaccc agtacgacgc gtcgcacgcc tcgcccgtgc 1800 
tcaactgtcc ttcaaccgtg gagaagaacg gcacggcgga acgttttgca ataacgcggc 1860 
cgagttcctg gcgcaattcg ttctcgagcg ggtccacctg cgagctgtgt gaagcgacat 1920 
ccacctgaat cagccggcag aagacgccgc gcctctcgaa gtcgtccttc aaatgctcga 1980 
gagccacacg gtctcccgag aacaccgtgc tgcgtggtcc gttgctggcc gcgacagaaa 2040 
cagtagtgag accgcgttca gcgagcacgg ccttcgcccg atcgagcggc agttcgacca 2100 
gagccatcgc tccccggccg cgaagtccga gcaacagccg gctgcggcga cagatgatgc 2160 
gggccgcgtc ctccagggtg agaatgcctg cgacatgggc cgccgccact tctcccatgc 2220 
tgtgtccggc cacgccgtcc gggcgaattc cccaggattg cagcagttcg accagcgcga 2280 
tttgaacggc gaacagcgca ggctgcacgc gatcgatctg gctcagccat gctcccgact 2340 
cgtcggcgag caggtccgca agccgccatt ccacgaagct gcggaaggcg gcgtcgcaac 2400 
gttcgatcgc cgatcggaag acaggctcgt cggaatacag gcgatacgcc atgcgcgggt 2460 
actgtccgcc ctggccggaa aagatgaagg cgagtttcgg acgaactccg ggatcggcga 2520 
aaccggtggc gacgccgcga ttggtttcat tgcgccggaa ggcctcgagc aattgattga 2580 
actcgggcag ggatgaggcc acaaacgctg cgcgatgttc gtagtgactg cgcgtcaggc 2640 
tggcggcgga acacagcgcg gagagcggag cgtgaaagcg cccatcgcga taggcgccgg 2700 
cgagatcgcg cagagcctgc ggatggcgcg ccgaaagcgg taggaggtat tcgcggccgt 2760 
cttcggcatg gagttgatcc gggaccggca cttcctcgcg gctgggcggc cggcccgacc 282 0 
ccccgccgcc gcttcgcggg cggctgtccc cctcgaggag ggggacacta gcactagcct 2880 
tagcctccac attccctttg gcctctacac tcgccttgac ctcttcactc gtcttcgcct 2940 
ctacattcgt cttcgcctct acattcgtct tcgcttctac attcgtcttc gcttctgcga 3 000 
ggacgacgtg cgaattggtg ccactgattc cgaacgagct caccccggca actcgggggc 3060 
ggccgttgga gggccatggc gaacatgcgg tggctatctt tagcggcagc tcattccaga 3120 
gtacgtgcgg gttgggcgcg ttgaaatgca gatggggcgg aatctctcgg tgctgcaggg 3180 
cgagaatggt cttgatcagg ccggcgatac ctgccgccgc ctccaggtgg ccgaagttgg 324 0 
ttttcaccga cccgacgatc aacggagaat cgacggcacg cccctcgccc agcaccgctg 3300 
ccatcgcccg cagttcgatg ggatctccca gcggcgtccc ggttccgtgg gcttccacgt 3360 
aatcgacatc ggcgggggcc atgccggcgt tcttgagcgc cgcccgaatc acggcttcct 3420 
gcgccggacc gttcggcgcc gtgaggccgt tgctgcggcc gccgtggttg acggccgatc 3480 
cgcgaatcag cgccagaata cgatcgccgt cacgcgtcgc atcggacagc cgcttcagca 3540 
ccagcattcc gcatccctcg ccgcggccgt aaccgtcggc ggaggcagcg aaacttttgc 3600 
aacggccatc ggccgccatg gcccgcaggc ggcagaagta gatcgtgctt tccggcgcca 3660 
gaatcaggtt cacgccgccg gccagcgcca tgctgcactc tcgcgactgc aagctgcggc 3720 
acgccagatg aaccgccacg agtgaggaag agcacgccgt gtcgacgggg aagttcggtc 3780 
cctgcaaccc cagcagatag gagatccgtc cggcggcagt gctgaacgcg gttccggtac 3840 
cggtataggc gtcaatgagc gccggatcgg taggtttcag ccggctgtag tcgtcggtgc 3900 
tgatcccgat gaacactccg gtgtcgctgc ccgcgagact gtcgggcggc cgacccgcac 3960 
gctccaaagc ttcccatgcc acctcgagca gcaggcgctg ctgcggatcc agaccggcga 4020 
cctcgcgcgg cgtgattccg aagaagccgg cgtcgaagcc gtcgacggca ccatcgagga 4080 
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atccgcccag acgcgtgtac atctttcccg gcgcgttggg atcgggatcg taaaacgcat 4140 
cggcatccca acggcccgca ggaatttcgc ggatggcatc gatgccatcg tgcaggagct 4200 
gccaaaatgc ttccggcgag tccgcgccgg gaaagcggca agccatgccg acgatcgcga 4260 
tgggttcgtt gtggacgctc tccagttcgt cgagacgcgc tcgcgtgcgc ttgagcgcca 4320 
ggaccgcctg ttgaagagga gtgagatcgc tcatcgttcc tctcccagat ggtgcaaggt 4380 
ttccgtgatg aacgccgcca tctcctgctc ggacagctgc cgcacttcat cgacgaggga 4440 
atcgctgggg acgtcgagtc cgagttcgcg gaggacatgg ccggccaatt tctcgacggt 4500 
cggatggtcg tatagcaatg tcgcgggaag gctcttgcgc accagctctc cgatggcgcg 4560 
cgccagatcc agcgccatca gcgaatcgag tccgtattcc ttgagcggcc ggcgcgggtc 4620 
gagcgtcttg gacgcatcga gcgccagcac gccgccggcc tgcttgcgga tgcgcatctg 4680 
cagcagttcc tgccgccgct ccggcgcagc ttcggtgagt tgctggatga agccgggatc 4740 
gctcgccggg ctccgccttt tttcggcgga gacttggaac accgcgatct gagcggcagt 4800 
ctcgcccagc agatcgccga agatgcgcgc acccacttcc ggcggcagca gcggtacccc 4860 
cggcaggcct tgccgcgcga tgcgcgcggc catgccttcg cccgcccatg gtccccaatt 4920 
gatgctcagc gccggtagtc cttgcgcgcg gcgcatgtgg gcaaggctgt cgagaaatgc 4980 
gttggccgcc gagtaattgc tctgtccggc ggaaccgagc agcgaagcgg cggaagagaa 5040 
gagtacgaaa aagtcgagcg catggtggcg agtgagctgg tgaagattcc aggcaccctg 5100 
cagcttcggc gccagcacct tctcgaaacg agcccacgtc tgttctgtaa ctaccccgtc 5160 
atcgagcacg cctgcggcat gcacgactcc acgcagcggc tgggtgcgcg ggtccgccag 5220 
cagcgccgcc agctgttgct cggaactcac atcgcaagca gcaaccatga ctgcagcccc 5280 
gagttgctcg agatcggcaa ctgcctccgt atgccggccg accagtacca gacggcgcgc 5340 
gccttgctcg atcaagcggc gtgccaccct tcgtcctaat gcgccgagac cgccggtgat 5400 
cagatagacg ccgtcggctg aaatggcagg cggccgcttc gacgtttcct tgtgccgcac 5460 
cagccggcga acgtagcggc gtccgttgcg caatgcgatc gctttgtcgt cgccggcata 5520 
acggatttca tccagcagca tggcggcggc gatgtcggca ttgtcgcaac cgaggtcgat 5580 
caggccgccc cacagctcgg gatgctcgcg cgcgatcgcc tgcccgagtc cccacagtgg 5640 
agcctggaaa ggatcgacgg gagtcgcatc gtcatcactg atgcgatgca cgccgcgcgt 5700 
gatcagccag agccgcgccg ggcggccgac caaagtctgg gtctgttcca gcgcctggcg 5760 
gagagtgacg ccggacacga cgcgcagctc ttgcggcatc aaaccggcga catcgtctgc 5820 
gccggcacac agcaaccagt cctccggctt gccagggccg tcggacttca acgttgtcga 5880 
tcgctcgcac tcctgccact gcacatcctg cagccacgac tgtgcggatt gcagcgtacc 5940 
ggcatgcatt acagccagtc cggaaaactc ggcgatgacc gcgccggtct cttcaaccag 6000 
cgtcagatca ccgacgaacg ggccgctcga gctcgggcgc agacgcgcat gacagcgcag 6060 
agaacctgcc ggcggacggt agaagcgcac cgcttcgatc ccgaccggca cgtatgcgcc 6120 
gggctggcaa cgctccgcgg gccaagtcgc tccgaatact tgaaaacaag aatcgatcag 6180 
gccggggtgc agccggtaag cgttcgcgcc atcctcagcc accggcagac gcattcgccc 6240 
cagcgcctcg ccatcgcgac gccagacttc ttccacccaa ctgaaggcgg ggccaagatc 6300 
gacgccgcgt gcgttcatcg cgccgtagaa cgcatcgccg gaaatgactt cggaaggctg 6360 
cgccggcagc tcgaaatgaa cggcgccggc agtcgccgcg cgcagactgg ctgccgtgtg 6420 
gagcttccac gaatcgccat cctggctgaa gacctgcacc tttgcttcgc cgtcctcgcc 6480 
gggtgtgaca atcgcttgca ccgtgaccgg cgtatccggc gggatggcca gtgcctgccg 6540 
catcatgaca tcggagacgg cgcagggaac cggaccgaag acttcctgtg ccgcttcgag 6600 
aaatgccgac acgtgccagg cgccgggcac aatgaccgcg tcgtagatca cgtgc'tcatg 6660 
gagcagaggc gtctccgtgg ttagcgaatt ttcgaagatg acatcgccca acgcgctgtt 6720 
gaggcgcgct cccaacatgc cgccgcgcgc cggctctctc gcgggtacgc gtctcaggct 6780 
gaaggtgtca cgctgaaacg gatacgtcgg cagcgcgacg cggctgggtg attccccggc 6840 
atagagaccg cgccagtcgg gattcacgcc cgcggtaaac aggccgccaa gactttccag 6900 
cagcacggac caatccgatc gtcccttaga tagggagtgc agccagaccg cgccgtcatc 6960 
gggcagacaa tatcgcccca gcgtggtgag cgtgggatgc gggccgattt ccagaaacag 7020 
cttgcactcg cggtccgcca gggttcgcat cgcgctttca aactgcacgg tttcgcgcaa 7080 
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ctgtcgccgc cagtagcggg cgtcgagtgt cgtgcctttc ggcaatacgg ctccgctgac 7140 
gttcgacacc agcgggatcg ccagcggctg atacgcgatc gcacctgcaa gcgcttcgaa 7200 
cttgtccaaa atcggatcca tcagcggcga atggaacgca tgcgatacgt tcagctctcg 7260 
cgtttccacg ccggcgcgat gcaggtcatc ttgcgcttcc gcgatttctg cagccgtgcc 7320 
ggagatcacg gtgcggtccg gcgcattcga tgcggcgact gccaccttgg cggcgagcgc 7380 
cgcgatgcgg ctcggattgg cgtgaacgat gaccgctttg ccgcggggaa gcgcattgac 7440 
cagccgcccc ctggcggtca ccagccgcag gccgtcctcc acgctaaagg cgccggccac 7500 
acacgccgca acatactcgc cgagactgtg gcccagcacg tagtccggcc ggacgccgag 7560 
cgacagccag aactgagcca gagcccattc cagggcaaac attgccggct gggtatacgc 7620 
cgtctcgtgc aacggcgaaa ccgactcgaa caagagaacg gtcagcggaa catcgagctg 7680 
gggacggagc caatcggcgc aacgatcgag cgcgtcgcga aaaacaggct gcgttttata 7740 
aagctctgcg cccatgccgg cgtactgcgc gccctggccg gtgaagagaa aagcgattgc 7800 
cggccgccgg cgcaacgata cttcgcgccg cggcgccgcg gccaatgccg ctacagcctc 7860 
tgccgcatct gcggcggtga tcgccaagcg gtgactatat gcgtcgcgcc caacctgact 7920 
ggtgaagcaa acgtcggaca gcaacgcatt cgggtgcgac tgcaggaact ccgcgaagtg 7980 
gccggccagt tcgccgagcg cttcgtcggt gcgcgccgac agagtgagaa gctgcgggcg 8040 
tgtgaccggc ttcggcaaag ggagtgcagg cgcctcttcg aggatgacgt gcgcgttgct 8100 
ccctccaaaa ccgaacgagc tgacgccggc cagacgcggc cgtccttccg acgtccacgg 8160 
cgacgattcc gtggcgatgc gaaaccggct gccgtccagt gagatgttcg gattcagccg 8220 
gcgaaaatgc aggtgcggag gaatggtgcg atgctgcagg gcgagtacgg ctttgatcag 8280 
cccggcgatt cccgccgcgc cctccagatg cccgatgttg gtctttacgg aacccagcag 834 0 
acaaggcgca gagtccggcg cgtcgtagac cgactgcagg gcctcgatct cgataggatc 8400 
gcccagcgac gtgcccgtgc catgcgcctc gatcaacgat acgtgggatg gatcgatgtg 8460 
cgcgttggcc accgcctctt gcaggaccgc cttctgcgcc tgcagattcg gcgccgtgat 8520 
gccattgctc cgtccgtcct gattgattgc cgagccgcgg atgactgcac ggatggcatc 8580 
gccatcggcc agcgcatcgg agagccgctt cagcagcacg atgccgcagc cctcgccgcg 8640 
cacataaccg tcggctgcgg cgtcgaacgt cttgcagcgt ccgtcgggcg ccaacatgcg 8700 
agccttcgac aaagcgatca tgccctcggg agtcaggatc aagttcactc cgccggcgaa 8760 
tgccgcatcg cattcgcgcc ggcgcaggct ttggcaagcc agatggacgg cgacgagcgc 8820 
ggaggagcag gccgtatcga ccgccatgct cggaccgcgc aggtcgagca gataggagat 8880 
gcgattggcc aacatgctat gcgccacgcc ggaacccgac caagctccga tgcgggcagg 8940 
gtcggcgtac tgaaacagtc cgaagtcctg ggcgcaggag ccggcaaaga cgccggtcgc 9000 
gctgcccgcc agagggccgg gagagatgcc ggcgtcctct gccgcttccc agcacacttc 9060 
cagcagcagc cgctgctgcg gatccatgtt cagagcttcg cggggggaga tgccgaagaa 9120 
ttccgcatcg aaaccgtcaa tgcgttcgag gaaggcggca tatcgcgcat acgccttgcc 9180 
cggagcatcg ggatcggagg agtagtactg gtccgagttc cagcggtctg gcggcacctc 9240 
ggtgacaccg tcgacaccgt tcttcaacag cgtccagaag gcgtccggat tcttcgcgcc 9300 
gcccggaaaa cgacacgcca tgccgacgat ggcgatgggt tcggcgtgaa ccaggtcgaa 9360 
gcctgcgatg ttttgccgca tgttccgcgc caatagcgcg agtttgaccg acgacatggg 9420 
cgcaattttt tccctcacga ccttgctcct cggagcgcag ccacggctgc ttcttccgac 9480 
atgtcgtcca acccgctgag tgcagttttc atggcgcggc tgtctccttc cgcagcagcc 9540 
gcggcctgcg cttcgaccag cggcagtccc atttgcgacg ccaggtgcgg ggcaagaccg 9600 
gccagcgtgg gatgacccca aatcagggtc gcggggagcg tgagacccag tgtgagttcg 9660 
agacggttgc gaaactccag ggccatgagg gaatcgaagc cgagttcctt cagcgggcgc 9720 
aggggatcga tagtttgaga gtcgatgcgc agcacgcgcg ccagctgctg ctgtagatgt 9780 
tcttcgagca atgtcctgcg ggtctgaggc tcggccgatt gcagccgcgc gcgcaacgcg 9840 
tttggcgcat cggcttcgct cgccgcgtcg tcatgcaaaa gctcgaacag tgcagactgc 9900 
gccgccttgg gatagaactg ccgccactgg cggacattga tgggcatcgc ggcgacgtgg 9960 
caagccgagc tgttcagcag ctgttccaga atagcgaggc cgtgttgcgg cgtcaggttt 10020 
tccatgccgc gcaaagccag ccgcgatccg cgattgtcct gcgcggcagc cagcccgacc 10080 



WO 01/40497 



PCT/FROO/03311 



68 



tccgaccacg caccccaacc gatgctcagc gccggcaggc cttgggcctt ccggtagtag 10140 
gccagcgcgt caagaaaggc gttcgcggcc gcgtagtttc cctgggcggg cgcgcccagc 10200 
agtcctgcag cggaggagaa gagcacgaaa tgatcgagcg ggcagtcgcg ggtgagcaag 10260 
tgcaggttcc aggcaccgtc gattttcgcg gccatcacgt tgcggaaatg cgcttccgtc 10320 
tggttcagta gcagcgcatc gtcgagaacg gctgcggcat gaatcacgcc gcgcaatcga 10380 
tcgatggaag agatcacgcg ctcgagttca tcgcgctgag aaacatcggc ctgcaccgtc 10440 
cggacatctg cgtccatgac ggcgatggct tgctggacct cgggtgaagg cgcgcggcgg 10500 
ctcagcagca ccagccgccg ggcgccgcgt ccgatcatcc agcgtgcgac ggtaagaccg 10560 
agcccgccaa gtccgccggt aatcaagtag gttccctcgc tatcgaacgc cgagcgtagg 10620 
ggtgcgatgg gcgcattggc gcaatctcgc atcgccatga cgattttgcc gatgtgccgc 10680 
gcctgcgcca tggtgcgaaa cgcctccacc gattcggtga tggtcgtcac tcgcgtttcc 10740 
aggggccgcc aggtttccga ttcgaatttt gcgaccatct cctgcagcag ctcccgggtc 10800 
aatgccgggc gcttcaggga catgccgagc aaatcgacca gcgtgtacga gaggttcttc 10860 
aggaacgggc gaagccccag cttgcggccg gcatagtaat cgcgcttgcc gatctcgatg 10920 
aaccgtccat gatcgcgcag cagatcgaag ctcgcctcca gcagatcgcc ggaaagcgaa 10980 
ttcaggacga cgtctactcc ttcttgattc gtccaattgc ggatgtcgtc cacgaaagcc 11040 
atcgagcgcg aatccgaaac atgcgcgatg cccagcgagc gcagatacgc tcgtttttcc 11100 
ggactcccgg cagtagcgaa gatctccgcg cccgcacgct gtgcgatctg gattgccgcc 11160 
aatcccacac cgccggtggc agcgtgaatc aggactcgtt cgccgggcgc cagccgcgcc 11220 
gctcgcgaga gcgcgtaatc ggcggtgaga aacgcgatag gcagggcggc ggcctgttcg 11280 
gcgggaatgt tggccggctt caaggcaacg cggaaggcgg gcgtggtgac gaagcgaccg 11340 
aaactgcaag gcgcaagggc cacgacttca tctccgatgc gaaagtcggt gacgcctttc 11400 
cccatggcca cgatacggcc cgagcattcg ccgcccaggc gcgggctgcc ggcaatcgcg 11460 
ccgggcgcat cgtcgggcat aacgccgagg gcgagcagaa cgtcgaggaa gttcaggccc 11520 
gcggcgcaga cttcaatctc cacttcaccg gcttgcgggg ggcggcgcga tgtggcccgc 11580 
aagcgcagcc ggtcgaggac tccgggggca tcgatctcga gccggaacgg ccgatcgccg 11640 
gccttgaaca tggcgggttg catatccgct tcgtgccgag ccacgcgcgc gacgtaacgc 11700 
gcgccgccgc gaaaggcgat ttgattctcg ccgttgttcg tcagcagttc gtgcaggagt 11760 
tcctcttcgc cgccggcggg atcgagatcg atcagcgtgc agttcagttc cggatgttcg 11820 
taatgcacgg tccggcccaa accccagaaa ggcgcctgag cgataccggc ttgcaggatc 11880 
tgtccatcga ccggctgcgc gccgcgcgtg accagccata ggcgcggtgc ttgacgccag 11940 
ggcgtgcgcc ccagggtctg gaggagatgc agaatgcggt cgcatgaggg ttcgtgctcg 12 000 
agcaaaaaca cgatttcctc gagcggcggc tggagttcat cgagcttttc cggcgaggtc 12060 
tgcgtcacgc ggttgccggt agcgcgcagc catgcggtga gcgcgctatc cacagcgccg 12120 
acaatgagcc atgaccgcgc cgctcgcgcc gccggcggct ctgcagcggc gtgcggctga 12180 
gcgacccagc gcagttcgtg caaccagccg cgcatgtcga tgcgctccga cgcatccagg 12240 
cgctgcagcc gcagaccctc gatgcgggcg accagttgtc cctctccgtc cagcagcgac 12300 
agatcggcga taggtccttc cagccgcgca tgcgtccaca ccacggaacg tgcgggatgc 12360 
agccagcgca tccggtcgat gccggcgggc agccaggttc caccggcggg accaaacgcc 12420 
gcggcgatga tctgcagaca tgcatcgagg aacgccggcg cagtggaacg cgtttccgag 12480 
ctacgcagac gcccgatcgc ctcacctgga caactccaga tctgctcgag cgcgcggaaa 12540 
gccggaccat actcgacgcc gtgctccgcc atctgacgcc acagctccgc cgccggcacc 12600 
actgtggggc agcgggcctg caccgtctcc gcagaatccg gcgggacggt cgatgcatcc 12660 
gcaggcgtct gacgaatgtc cccggaagca tgcaggaccc atgtcgatgc ctgccggctg 12720 
gaaatccgaa acgacgccat cccgggtcta tcgaccgcga tggccagctg caacgtcatg 12780 
ctgccgtcgc gcggcacaat gagcatctgt gtgaaagtca catgctccag cacgcacgga 12840 
ctttcaccga aggtctcgga agttccggcc agagccatat cgagatacgc agtagccggc 12900 
aagacgactt cgccctgcac gcgatggtct gccagccaag gcacggaagc gagactgagt 12960 
tccgtctccc agaagaaagt gccgggttgc gtcgaggctt cgacgcgttt tcccaacagc 13020 
ggattgccca acgtgatcgc gtgtcgcgcg ggggaagcgt cgagccagaa acgacgacgc 13080 
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tgccagggat accggggcag gcgcacgcaa ttgccggaag ggtacacggt ccgccatgcg 13140 
acagtgtgcc cagcctcata gagggcgccc agcgacgtga gcatggaacc gcgttcgtcc 13200 
tggtcgcggc gcagagacgg aaccagcgcc gcattgccgc. cgatggcggg cagcaggatg 13260 
ggatgagggc tgatctcgag aaagacatcg tgcccgctgt cggcaagatg gcggatgccc 13320 
tgccagaaca gaaccggcga tcgcagattg cgagcccagt acgtgctgtc gaggctggtg 13380 
gtctccagcg tcgcgccgg't caccgtggag taaaaaggta tggtcgcggg ccgcggttga 13440 
atcccgtcga gcgactgcag gagttcgtcg cacaatgggt ccacttgcgg gctatgcgcg 13500 
gcgaagtcca ctttcaccgg ccggcaagac acgcctcgcc gctccagcgt cgcgacgacc 13560 
tcggccaggg cttcgacttc accggagatg acggtggagt tgggtccgtt cgacaccgcg 13620 
ggcgatagtc gttccgtgta agtcgacagc acggcctcac attccgcgag cggcagctcc 13680 
accatcgcca tcccgcccag gccgctgatc cggctcaaca gccggctgcg gctgcaaatg 13740 
atccgcgccg catcctgcag cgtcagcgca cccgcgacat gagcggcggc gacctctccc 13800 
atgctgtgcc cgatgacggc atccggctcg attccccagg aacgccacaa tgcggcgatg 13860 
gcgacctgca gcgcgaagag cgcaggctga atgacctcga cgcggtcgag cttcgccagt 13920 
tcttctttca gcgaccagtc cacataaggc cgcatggcgg cctcgcagcg ttccaacgcc 13980 
tcgcgaataa cgggttcgcg gtccatccag ctgcgcccca ttccgatcca ttgcgatccc 14040 
tgtcccgaga agacgaatac cgtcttccgt cgctgggaag ggatcgtgat cccctggagc 14100 
tgcgccgcca gttcttcagc cgttctgccg gaaacagcga gccggcatcg gtgatgcgtg 14160 
cggcggactg cggccgtgta gcaaagatca cgcaggctcg gtgcgtgcga cgctgtcagc 14220 
aattccccgt atgcccgcgc cacccgacgc agttcgtccg caccatgcgc ggacagcgga 14280 
agcacataca tcgcgtctgc aatgcccgta gttgccgcag tgcctgcagt ccctgcaatg 14340 
tcgggagtgt ctgcagtgtc gggagtgtct gcagtgtcgg gagtgcctgc aatgtcggga 14400 
gtgcccccag tgtccccctc cgcgaggggg acagccgccc gcgcagcggc ggcggggggt 14460 
cgggaatgga acccgctcgc agcttcgcct ctaccagtcg gcgccgcttc ttcaagaacg 14520 
acatgcgcgt tcgtgccgga ccaaccaaac gcgctgacgc ccgcaaacct tcgtctcgaa 14580 
cccgcgggcc acggccggac ttccttcaca atgtcgagcg acgttccctc caaccggata 14640 
ttcgggttca gctgtctcac gtgtaagctc ggcggtatcg tctcgtgact caatgcgagc 14700 
accgctttaa tcaatcccgc tatgcctgcc gctccctcca ggtggccgat gttcgatttc 14760 
agggacccga ccgcgcacac atcgccgaca ggtcgcggga ggccgacggt ttccgccagc 14820 
gcctcgatct cgatgggatc gccgagcgga gtccccgtgc catgggcttc gatgtaaccg 14880 
atctgctgcg ccgcgacgcc cgcattggcc aatgccgacc ggatgacgac ctgctgagac 14940 
acgacattgg gagcggtgag cccggccgag cggccatcct gattgaccgc ggagccgcgc 15000 
accacggccc acacccggtc tccggccgcg agtgcatcgg acaggcgctt cagcaccacc 15060 
acgccgcagc cttctccgaa cacgatgccg tccgccgccg cgtcgaaggc gcggcagcga 15120 
ccgctgggcg aggcggttcc catcttcgag gtggcgtaca taaactccgg cgagaagcgc 15180 
agattcactc cgccggccac ggccagcgta cactcgccgc tgcgcaggct ctggcacgcc 15240 
agatgaaccg ccgccagcga agacgagcag gccgtgtcga gcgcgatgct gggtccttgc 15300 
aagttcagca aataggaaag tcggccggcg atcacgctat gcgccgtgcc ggtggcggta 15360 
tacggatcga tgcgcgcgcc atcggcggtc tgcatccaga aatagtcgct gctttggctg 15420 
tggatcccga cgaagacgcc cgtgcggctg ccggagagcc cttccatcgt ctgccccgca 15480 
tcctccagtg cctcccacgc cacttccaac agcagccgct gctgcggatc aatgctgacg 15540 
gcctcgcgtg gcgaaatgcc gaaaaaatcg ttgtcgaaac catcgatgga atcgagaaat 15600 
ccggcttgaa tcttcaccgg cgtggcgggg ttcaacgatt tcaggatgcg ccggaccgac 15660 
tcctcgtccc atcgtccagg cggtacctca cgaatagcat cgactccact gcgcaacatc 15720 
tgccagaact catcgggccc atcgccgccc ggaaaccggc agcccagacc cacgatcgcg 15780 
atgggttcgc gcgcgtcgcg ttcggccgca tcgagacgtc gctgcatgtg ctccagcgtc 15840 
aggtacgcct gctgcaacgg cgtaaggttg gggaatcgct cggatatcga actcactcgg 15900 
aggctcctga aaaatgagcg aacttctgtt tcaacaaagc ttcgatttct ttgtccccca 15960 
acccggcgat ctggtttgcg acggcgtcga gatcgtctgc agcggcggga ctccggtcct 16020 
cgcccgcggc ggtgccaacg gtagcaaggg tagcaacggc agcaacggtc gaaggttcag 16080 
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cattgccggc catgctttcc agcggcaggc cgagcttgtc ggcgagatgc tgcgccaggg 16140 
cggagaatgt cgggtaacgc cagatcaggg tggcagaaag cttgacgcgc agcccggctt 16200 
ccagacggtt gcgaaactcg agggccatca acgaatcgaa tccgagatca cccagcgtcg 16260 
ctctgccgtc gagtttcgct ggatcgaagc gcagcacgtg tccggcttcg tgcatcagca 16320 
gcgtttccag ccgcgcgcgg cgctgccgcc cggctggaac tgccaggagc tcgctgcgca 16380 
tgtcggccgc cggtttggtg tccgcggccg cgggtgcgat gccggccagc agggacatcg 16440 
atgcggccga cggatagtaa cggagccact gcgcgatatc gaagttcatg acagcgacgt 16500 
gcggccgaat ctgcgtcaat gctttgtaga gcgcgcgcaa tccctgttgc ggttgaataa 16560 
ccgagatgcc gcgcgcggcc agacggtctc cgcggttcgc ctgtgcggcc aaaccaacct 16620 
gtgtccacgg tccccacgcg atgctgacgg cgggaagacc ctgggcgcgg cgcagatgag 16680 
ccagcgcgtc gagaaatgaa ttgccggcgg cgtagttgcc ctggccggga gatcccactg 16740 
tcgcgctggc ggaagagaag agaacaaaat gatccagcgg ccggccggcg gtgagttcgt 16800 
gcaggttcca cgcgccggct actttcggag ccatggcggc ttcgaagcgt tcggtcgtga 16860 
gattgagcag catgccgtcg gccagcgtgc ctgccagatg gaacacgccc cgcaacggcg 16920 
gcatgtcgcg atcgatgatc gcgagcgcat ccgatagctg ctgccggtcc gccacgtccg 16980 
catggatgat cttgacgttg acaccttcca gttgtggccg aggacgctcg ctgcgtccca 17040 
gcagaacgag atggcgcgct ccggcggcgg cgagccatcc cgccacctgc agtccgagtc 17100 
cgccgagccc gcccgtgatc agataggttg cgtcggcacg gaacgccaca tcgggtgcgg 17160 
atgggatctt gtgaagactg aggcgcggcg cccataccgt gccttgccgg atcgcaactt 17220 
gatcctctgc gatattcgac agcatcagcg tcgcgagatg cccgcagtcg ttgctgtgcg 17280 
catcgagatc gacgagcgtg cagcgcagct cgggatgctc ataggcaatc gtccgcccaa 17340 
ttccgtgcag ccaggcttgt cgaatatcaa tatctttgtc ggagttgaga accgcggcag 17400 
atccgcgcgt cagcagccac aggcgcggcg gctcaggcca gcccgcttgc acgatgctgc 17460 
gcaatacgga aagcaggtcg tcgatgcgcg gcgagggaca gtacacaatt tgacggcacg 17520 
gcggacccga gcacgtatcg gccgtgcggc aggtttggcc gcgcttttgc agagtctcgg 17580 
caatcgccgg ctcgccgatg acgagccaag gtccgccagc attgccggca ttggcatcgc 17640 
cgcggcgaac cgacgcggtc cattgcaccg tccaggtggg aatctccgat tcgccgagct 17700 
ggccgctatg ggcgactctc gactgcagcc ccaccaattc cgccaccacg ctgccggtgc 17760 
cggtgacgag acggacatcc accgtggaat ccggccgcaa gaccgcgtat ccccagaccg 17820 
ggccagtggg cacttcagcg agcgagaatc ggtccagacc taccggcaca tgcacatctt 17880 
tcaaatcgtc gtgatggacg agggccgcgg gcaactgcag acagcagtcg atcgtctgca 17940 
tttccgtcag cggaatgtcc acgcgacaaa gcacctcacc gttgccgcgc cagatggggc 18000 
cgatggttcg gaaggtggga ccgaagtgat agccgcgatc ccacagtcgc gaatagaagg 18060 
catcggctgt gagctccgcc gtgcagcggg cgcgaatcgc atccagatcg atggatgccg 18120 
tggaatcgcc cgcctgcagc atgccttcgc tgtgcagctt ccaggaatcc tcgcggctgt 18180 
agatgcggaa ggaagctccg ccgccctctt catgacggag taccagttga acctgcctgg 18240 
cagcatcgtt ttccggcagc gtcagcgcgc ccgtcaatga cacgtgttcg acatggtgag 18300 
gcccggcgcc gagaccttgg cgcgcagcgg cgagcgccat tgccaggtgc cacgctcccg 18360 
gagtcacgat cacatcgtgc agccggtgat ccgcgaaatc tttcgcctcc acagtggact 18420 
cgaactgcat ctccggcagc ggcgacggga tccgccggcc aggcaaagcc tgagactcga 18480 
cctgcggcgg acggatatcg atccaataac gctcacgctg ccagggatag ttgggcagcc 18540 
ggcgagtttg gccgccgttg ggataaatac gagaccagtc cggagtgact ccgttagtca 1860O 
gcagcgctcc cagcgtccgg cgcagtgcga ggtttccgtc ttcatcgcgc cgcaacgagg 18660 
cagcggcaat cgctgcccga tctccgagcg tttcctggat cggctggacc aacaacgggt 18720 
ggggactcag ttccagaaac acatcatgac cacccgccgc ggctgcggcg acggccgtcg 18780 
acagcatcac gggttggcga agattacgag cccagtacgc agaaaccagc tcttcaccgc 18840 
taatcgctgc gccggtgacg gtggagtaca tgccaagggc ggccggccgc ggctgaagcg 18900 
ctcccaccac gcccggcaac gccgcgcaca cggagtccat cagatggctg tgcgaggcaa 18960 
tgtccacttt cacgcgacgg cagaagacgt ctttcgcctc cagttcccgc agcagttcgc 19020 
ccagagctgc gctgtcgccc gacaggacgg tgctgcgcgg gctgttgctg gcggcaatcg 19080 
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agacccgatc cgagcgcccg gcgatggcag cgatggcctc gtccagcgct aattccacga 19140 
cagccatttc tccctggccg cgtactccgg cgagcatccg gctgcgcagg caaatcaccc 19200 
gagcggcttc atcgagagtc agcgcacctg caatgtgcgc tgccgcgact tcgcccatgc 19260 
tgtggccgat cacggcgtcc ggctcgattc cccaatggcg ccacagtccg gccaaggcga 19320 
ccccgactgc gaacagggcc ggttgaatca cgtcgatgcg gtcgagcggc ccctgcaact 19380 
cttgcgtcag cgaccagtcg acgtaaggct gcatggcgcg gccgcactct tcgatggcgg 19440 
cacggaacac cggttcagaa gccatcaggt cgcggcccat gccgggccac tgcgatcctt 19500 
gtcccggcaa aacgaaaacg acttttcgct tctggccgcg cggcacaaaa cctgtggcgg 19560 
tatcgcggtt cgggttgccc gccagaaaac tgtccagccc ggccatcaag tcctgcgcgt 19620 
tcgtcccggt gaatgccgcg cggtgttcgt atgaagtgcg gcgagcgcac gccgtgtagc 19680 
aggtgtcggc ggggttgtcg ttcaccacgt cgcggtatgc gcgcgccaga tcacgcagcg 19740 
cctccggact gcgcgccgat agcggaagca ggtacggtgc gggcgtactg gacgcggcct 19800 
gttgcggcgc ctgctcgatg agcacgtgcg cattcgtacc gctcaagccg aacgagttga 19860 
tgccggcgac gcgccgcccg ccgggtgcaa ccggccaggg ggtgagccgt gccgggattt 19920 
cgaggggaag cgtgttccaa tcgatgtgcg ggctgggcgt ggtcagattc agatggggcg 19980 
gaatggcttc gttctgcagc atcagcgcca ccttgatcag tgcggccacg cccgctgccg 20040 
cctcgaggtg gccgaagttg gtcttcaccg acccgagctt cagcttgttg ccgttggtgc 20100 
gccccgctcc cagcgcggcc gcaagggctc cggcttcgat gggatcgccc agcggcgtgc 20160 
cggttccgtg cgcctcgaca tagctcacat ccagcgtctg caagcgcgcg tctcccacag 20220 
cctggcggat cacggcttcc tgtgcgggcc cgttcggcgc cgtcagtcca ttgctgcgtc 20280 
cgtcctggtt gattgccgtg ccgcgaatca ccgccatcac cggatcgcga tcgcgcagcg 20340 
cgtcggagag tcgcttcagc acaaccacac cgcagccctc accgcggacg tagccgtctg 20400 
ctgcggcatc gaatgcctta cagcgaccgt cggctgccat cgccttcagc ttgcagaagt 20460 
agatcgtccg atccggcgag agaatcagat tgacgccgcc cgccagcgcg aggtcgcttt 20520 
cacctgagcg caggctctga caggcaaggt gcaccgcgac cagcgatgac gagcatgccg 20580 
tgtcgatcgc catgttcggg ccctgcagcc cgaggatgta cgagagacgc ccggcggcaa 20640 
cgctggccgt attgcccgtg ccggtgtacg cgtcgatatg cgcatccccg ccgcgcattt 20700 
gcaggttgta ataatcgttg gaaaagatcc ccatgaagac gccggtccgg ctccccgcca 20760 
gccggtcggg tggaagcccg gcgttctcga tcgcctccca ggtgacttcc agaagcagcc 20820 
gctgctgtgg atccaggctg atcgcctcgc gcggagcgat gccgaagaac cgggcgtcaa 20880 
aacggtcaac ctgatcgatg aagccgccgt accgcgtgta cattcggccc gtcgcgccgg 20940 
gatccggatc gtagtaggca tcgatgtccc agcggtcggg tggaacttca cgtaccgcgc 21000 
tgcggccctc gcgcagcaac gaccaatagg catcgagatt ggatgcgccg gggaagcggc 21060 
agcccgcgcc gatgagggcg atgggctcgc tgcgcgcgct ctccagctgg tcgatgcgtt 21120 
tctgcacctt gtcgagcgca atcacggcgc ggcgaagctt gctgagatcg tctgacccgc 21180 
tcatgtttat tgcgtctcca accactggtc gacctgcgcc agccgcgaat cgagcagcgc 21240 
ttccagttct tcgcgggcga ggttctcaaa ctccggcgct tccaccggtg atgcttcggg 21300 
tggaaatacc gcatggagca cgtaactgac gatcgcatcg agcgacggat agtcgaacag 21360 
cagactcgcg ggcaaaggct gccccagtga ttgggagagc gagttgcgaa gttctatggc 21420 
cattagcgaa tcgagtccca gttcacccaa aggctgctgt ggatcgagcg gtgtggaagt 21480 
cgcgatgccg acaaagcgcg ccagtgactc cctgatgtgc gcaatgagga tggcttcgcg 21540 
ctgccggggt gtggcttcgt tcaagcgggt gcgcagttga ggtgaaggca gcgcggcggg 21600 
acgcagcaac tcgccggtaa tcgagcccgc cggtagcgcg gcaatctgaa tggggcattc 21660 
atgcaggacg gcctcgagaa tgtgtagacc ctcgtccacg gagaggctcg ccacgccggc 21720 
catcgactgg ctggtgcgcg cggccattcc ggctcccgac cagcgccccc agttaatgct 21780 
ggtcgccggc aaacccagtc cgcgccggtg atgcgccagc gcatcgagaa cggcgttggc 21840 
cgcggcgtag cctgcctgcc cggcaggacc taagagcgag gatgccgatg aaaagagcac 21900 
gaagaagtcg agcggcagat cgcgggtgtg atgatggagg tgtacagcgc cttccgcctt 21960 
cggcgccatg acgcttgcga tccgcgtcca gtcctgattc agcagtacgc cgtcgtccag 22020 
cacacccgcg gcatggataa cgccgcgcag cggtgacgtt tcggtgtgga tgcggcgaat 22080 
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gagatccgcg acctcttctt cccggctgac gtcgaccgtc tctgccgtcg caccaatctg 22140 
ttgcagcacg cgctgctgct cctcgtttgg aggccggcgc ccggccagca cgacgcgagt 22200 
ggcgccgtgc tccaccatcc atttcgcgac tgtaagtccc agggctccga gcccgccggt 22260 
gatcaaataa gtcgcgcccg aaaccagacg gactgccgct cgcgcgctgg gtcggcgggt 22320 
cagtcgcggc acgtagcgcc ggttgcttct ccacgccgac tgatcttcgc cgtcgaaatc 22380 
acgcatctgc gcggccgcgc cggccgccga agcatgcgca tcgtcgggat ccagatcgat 22440 
gagcccgccc cacagatccg ggtgctcgcg cgcgatcacc cggccgaagc cccagagcgc 22500 
ggcctgcatg ggattgtgca ccgcactggt cgcctgcgcg ccggccgtta ccagccatag 22560 
ccgcggaccg gacttcaggg acttcaccag ggccagagtg ctgcggcagc cgagctcata 22620 
atcatcgaga ctgtacaggt tgacgatccc gcgccagtca cgctcaccga ctagggacat 22680 
gtactcgccg gctggcggca cggtaacgca catctcgccc tgagctgtga gcgcatctgc 227.40 
cagagcgcgg gccgcgccgc cactgtcggc caggatcagc catgccccag gctgtagcgt 22800 
tcgcgaaggc tggcggagcg gttcgggccg ccactcgacc tcatacaatt cgggcttccg 22860 
ttccgagcgc tgcgcccatg cgcgagtgac gcgccggaaa ctcacgccct gaagttcccc 22920 
gagaacgcag ccctccgagt ccagcaactg cgcctcgccg gtaaagccgt ccggcgaatg 22980 
ccggagaatt tgcgcggccc cccatacggc gccctccagg ctgccgtaaa aacaaacgcg 23040 
abcgataccg agcggagcga atatcggatg ttcggcgcca tccgcaagcg cgggactcgc 23100 
cgcggcgcta agcaattgca ggccggcttc cgccaattca caacggggat tgagcggcgt 23160 
tgcggaatca atcgcggcca gcgcttcctg ttcaccgaaa tgaatgcgct gtatgcggcg 23220 
gtagctcggc cccagttcta tctcgaggtg gcgcagcagc gaatagtacg tgtctccatc 23280 
caccgcaggc cggcgttcat cgaccagtcg gggcacggga gcgacaccag cgtgggcggc 23340 
aatattgccg gcagcatgta agttccacga gccgtcggac aagctgagta tgcggaacga 23400 
ggcatgccgg tcatcgctct gtgaaagcac gagctgaaca gccgtgtcgc gctccgctga 23460 
aaggatcaga gggtgcgcga agttcacgtt ttccagcgtg tgccggccgg cgccaaacac 23520 
ctccgccgac gcctcgagcg ccatggccag gaagtacacg gccggggcca ccaccgaacc 23580 
gtaatatcgg tggtctgaga gtagaggcga agccgtcgat agtttcgact cgaagataac 23640 
gtctgccacc ggtagcgaca gccggcaccc gacgagacca ctcgcaaccg ctacaggttc 23700 
cggtctggaa ctccgctcga tccaatggcg gcgtctctcg aaaggatagg ccggcagggc 23760 
gacacgcctt cgcgaatacg gacggtcgaa ctcctgccaa tcgatgtcga acccaccctg 23820 
atatagcgtc gccacactgc tgagaatcgt ctcccactca tcgcggcctt tacgcagcga 23880 
cggcagccac tgcttggcgt cgtcgggcag gcacttttgg cccatgccga gtagaaccgg 23940 
cttaggaccg atctcgagaa acacgtcgca gccttcgtcc ttgagcgttt ggataccgtc 24000 
ggcgaaacgg acagggtttc gagcgtgatc tcgccagtac agcggattcg ccagctgtcc 24060 
ctcgccggcc agtttgcccg tgaggttcga aaccaagccg atcgaaggat tgcgccacgc 24120 
gatcgccgcc gcccggcgtt gcaggtccgc cagaatcgga tccatgctcg agctgtgaaa 24180 
ggcgcgcgca acggccagca tctgcgtttt gatgccctcc gcacgtagag ttgccagcgc 24240 
gctctcaata tcctgcggcg cacccgaaat cacgacctca gcgggtccgt tgatggccgc 24300 
aatggagacg cgcgaggtga tcgctgcggc acagcgctgc tcgccggcgc ' tgaccgcagc 24360 
catcgcacct tccggcaggt tctgcatgag ccggccgcgt tcggcaacta agccgagcgc 24420 
atccggcagg ctgacggcgc cggcaataca cgccgccgcg tattcgccga cgctgtgtcc 24480 
catcaccagg tcgggcgtca caccccagga cttccacaac tgcgccaagg cccactgcaa 24540 
agcaaacagc gcgggctgcg cgccggcggt cgcgtcgagc aacgcgtcat cggccaacag 24600 
cgccggcaga tcgagccgtc cattcagcag agctgcgcat tcatccatgg cggcgcgaaa 24660 
caccggctgc gactcgtaga actggcggcc catgcccgcg tattgcgcac cttgcccggt 24720 
gaaaagaaac gcaatcttgg ggcgcgtctg ggcgatgcga acccgtcgtg cctccgtcag 24780 
tcgttggcga gcctcgtcgc tcgaccgggc cacaatgcag atacggtgcg ggaagtgcac 24840 
gcgccctgca ttggccgtga atgcgacatc gccgaacgac aaaccgggct ggttgtccat 24900 
atggccgcga tacgagcgca ccagttcttc gagggccgcg tctgtattgg cggacaggca 24960 
aagcacatgt gcggatcgtt cgggcgcagc tgcggccggc gtcaccggcg gcgcttgctc 25020 
cagaatcacg tgagcgttgg tgccgccgat cccgaacgaa ctgactgccg ctcgtctcgg 25080 
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ggtctttccg gcgggccagt cgagcagccg cgtactcaca cgaaacggag tgtttgcgaa 25140 
atcaattcgc ggattcggac gctggaaatt caggctggga ggaatctggc cgcgatggac 25200 
ggcaagcacc gtcttgatca gcccggccac accggccgcg acgtctagat gaccgatgtt 25260 
ggtcttgacg gatccgatat acacatcgcc gcttccgttt ttcggaaagt tggcagcgat 25320 
ggcggcgatc tccaccggat cgccgagcgg cgtggctgtt ccgtgggcct cgatgtagcc 25380 
gatggactcc ggcttcacgc ccgccatctc ttgagtgcgc cgaatcaatc gcgtctgacc 25440 
gtccacacct ggagcggtaa accccatgcg ctcggcgcca tcattattaa tagccgctcc 25500 
gcgaatgacg gcgtagatcg tgtcgccatc ggccagagcg cggctcaagc gcttgaggac 25560 
gaccacaccc gcgccgttgc ccggcaccgt gccttgagcg gactcatcga aggcgcggca 25620 
gcgcccgtcg ggcgacagga tcatgcccgg ctggtgcagg taccccacgg actgcggaac 25680 
attgatggca actcccccgg ccaaggcaat gtccgaggcg ccgcgctgca agctctcgca 25740 
tgccatcacc accgacacca gcgaggtgga gcacgccgtc tgaaccgtca ggctgggccc 25800 
gcggaggttc agcttgtaag agacacgcgt ggccaggaaa tccttgtcgt tggccgtcag 25860 
cagctggtac gcggaggggc gtgagaaatc gaacggctcc gcggtggcga ggttgttcag 25920 
caggtaggta ttgacgccgc atcccgcgaa aacgccgatc gaacccttat agcttcgcgc 25980 
cgcatatccc gcgttctcca tcgcttccca cgcgcactcg agaaacacgc gatgctgcgg 26040 
gtccatgatc tccgcttcgc gcggactgta gccgaagaac gcggcatcga aaaactcgat 26100 
gccgtccagc agacccttgg ccggcacgta gctcgggtcc tggaagacct ccgggctgat 26160 
gccgcccgcc agcagatctt ccggcgaaag cctggcgatg gaatccacac cgtcgcgcag 26220 
attgcgccag aactcctcca cattgcgcgc ccccgggaac cggccggcca tcccgataac 26280 
tgcgatccga tcttctgcga ccgcagccgc aggttccgca gcggcgggtt cggatttttc 26340 
tgccaggccg gcaagcgact cgatcgtcgt atgccggaac agatcgacga cggagagcgt 26400 
caaccccagg cgctcctcga gcagtccgcg cacccgtgtg agcattagcg agtgcccgcc 26460 
gacatcaaag aagttctgcc gatagtcgac gtgctccacg cgcagaactt cacgccagat 26520 
ggacgcaatc gtctccacca catcgccgcg catcggctcg cgagcagcaa ccggcgttgt 26580 
gggcaaaccg ggaagcgcgt tcgcgtcgat tttgccgttg ggcgtcagcg gaagggagga 26640 
caggctgaca aacgccgagg ggatcatgta atcgggaagg cgcgttgcca gccacgaccg 26700 
caaatcgctc tgcagatcgc gcacgtcgcc cgttgccgga acgagatagg cgatcagccg 26760 
atcgtccttc acgaccgtaa tcgcctgctt cacggcaatg tgcgtctcga tcgcggcctc 26820 
aatctcggcc ggttcgatgc gaaacccgcg cagcttgatc tggcgatcga ctcgtcccag 26880 
gcactcgact gcgccgtcgg aacggtagcg agccagatcg ccggtagagt aaatgcgtcc 26940 
tcgatcacgc cactcgcgga atttctcacg cgtgagctcg gggttgcgat gatagccccg 27000 
cgccagtccc gctcctccga tgtacagctc tcccggaact ccggggggaa ccggctccat 27060 
gcgcgaatcc aggatgtata actgcgtgtt gtcgatggga tggccgatcg gcacgatgct 27120 
atcggaggca cccagtcttt gtgtcttgtg cacggccgac catatggtgg tctccgtcgg 27180 
tccgtaaaga ttccacagct ctacgccact atcgagaatg cggcgcgcca gttccggcgg 27240 
cagagcttca ccgccgcaga aaacacggaa gcctttaccc ggcttccagc ccgaatccag 27300 
caattgccgc caaccgctcg gggtcgcctg catgaccgta gcgcccgact tatccagcag 27360 
ggtggtgagc cgctcgccgt caaccacgat ctcgcgggtg gcgacgatga cgcgggcgcc 27420 
ggtgatcaac ggcagccaga tctccagtcc ggcaatatcg aatgacacgg tggtgacggc 27480 
gaccagccca tcggcggctg tcagacccgg ctcgcgctgc atggagcgca gcagattgac 27540 
tagcgacgag tggcggatct ccacgccctt cggtcgcccc gtcgatccgg aggtatatat 27600 
gatgtaggcg agatcgtcgg gcttgctgcc gctgacgaga ttcgcagctt ctggttcgac 27660 
ggcgaccgcc atcatcgcca tcatcgccat catctcagcc accgcctcct gcgtgaggac 27720 
cgcgtgcggt tgcacttcat cgagaatccg ggcgagacga tccttggggt gcgcgggatc 27780 
gagaggcagg tacgcgctgc cggacttcag aatcgcaagc agcgcaatca ccatctccag 27840 
cgagcgctcc atcgccagag cgatgatctt tcccgggccc gcgccggatg cgctcagacg 27900 
atgagccagg cggttggccc gcgcattcag ctcggcgtag gtcaactgat ggtcttcgaa 27960 
gacaacggcg acggcgtgcg gagtgcgttc cgcctgagct tcgaccagtt catgcgcaca 28020 
cccgttcgga ccggcatcgc gccgtgtcgc attgtgctgc tcgagcatcc ggcttcggac 28080 
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cgcgggggac aacagcgcag cggttgaaat gcggacgtcg ggatccgtca ccacgctcgc 28140 
cagcagggtt cggtacgcat cgagcaggga ggcgatggtt gccgcatcga acaaatcggt 28200 
gttgtattcg gcggacgcca tcagtccatc gccggatggc tcgagggtca cgccgaggtc 28260 
gagtttggat ccgccgttgt gcatgtactc gcgcgagatg gtgagcccag gcatgacggt 28320 
gatggccggc gcatcgggca gcagcgcgaa ggagacctga aatacaggcg accggctcag 28380 
gtcccgcgga ggatgcagtt cctcaaccag gcgttcgaaa ggaaagtcct gatgagagag 28440 
ggcgctcaaa gcggtgtcgc gggtgcgggc gagaagactg cgaaacgacg gatcgtcgcg 28500 
cagatcgccg cgcaggacga tcatgttggc gaaacaaccg acgagacctt ccgtttctcg 28560 
ttgtgtacgg cccgcgactg gaaccccgat aaggatgtct tcctgcgcgg tatagcgatg 28620 
cagcagcacc tgaaacgccg cgattgccgt catgaacacc gtcgctcctt cacgcaaggc 28680 
aaacgcgtgg agtccatcgg tcaaatcacg gccgagggct gtggtctcca cggcgccccg 2874 0 
ccaggtctgc tgcgcgggcc gggggcgatc ggtaggaagg tcgaggaaag gcaaggtgcc 28800 
cgacagctgt ttcttccagt actgctgcgc ggtttggttc agcgacgtct gctgatggac 28860 
ggcccagtcg ccatactgaa tcggcagttc catgagcggc gatggccgcc cctgcacgaa 28920 
cgcttcgtac gatcgcgtca ggtcgcggac gaacgtctcg accgaccacg catccgcgat 28980 
gatgtggctc aacgtcagca ggagaatctg ctgcttgtca tcgaggcaga tcagcttggt 29040 
ccgcagaagc gggggttttc gcaggtcgaa cgggatctgg gcatcacgca aggccatttg 29100 
ccgcgcttct gcgattccgt cagcctgaac aaccggaagt tccagtgtca ctcgcgccag 29160 
gaggctctgg cgcgcctctc catccacacc gccaatgcag ctgcgcaggc tctcgtgccg 29220 
ctgcaccacg gcctccagac tccgcaggag gacgcgaata tccagcggac ctcggatatg 29280 
cagcgctatg ggaatgttgt aggcgggaga atccgggtcg agctgatgga gaaaccaaag 29340 
ccgctgctgg gccagcgaca agggtgcggc atcccggttt tcacgccgcg ggatgcgatg 29400 
ttcggggctg ttttcctgca gcagacggtc gagcaattgg cggcgggcga gcgagaggtc 29460 
tatggtattt ggcgacgaat tctgcattac aacccgctgt gttcctagtc ttgggcggcg 29520 
ctcatcatac gctcgatttg aacatctgac atttgggaaa cagcgatcag caaatcggcg 29580 
gctcgccttg cccatcctgg gtctacgccg tcctgaatag cgacggcgaa gcctcgaacc 29640 
gtgggggcgt taaacacggt tcgaaagggc acttccacgt ggagcatgtc gcgcacgcgg 29700 
gcgatcatct gcgtgaccag cagcgaatgt cctccagagt cgaagaagtg atcatggacg 2 9760 
ccgatgccat ccatgccgag cacctcgccc caaatgtggg cgagtacctg ttccaccgga 29820 
gtttccggag gcgtgaatgc ttcggcgtgg gctcgccggc tgggctcggg atcgggcagg 29880 
gcgttacggt cgatttttcc gttgggcgtc agcggcattt cgtggagcac gacccacgcg 2 9940 
gtcgggatca tgtagtcggg cagcttctcc ttcagatgag tacgcaactg cggcacaacc 30000 
gtgcgcgtat agacggctcg cagcggatcg ttcgtatacg ggccggccag gcggcgtcgc 30060 
ggacgggaag ccggcggacc ggccgccgca cggcagaagg tcgcgtcgaa gcgtccgtgt 30120 
ggcccatgac tgctccagtc gattgccacg cggtacggca ggtcttcgtc catacgccat 30180 
agatcggcgg gatcgacgcc ggaaggcgac gtctggcgca gccggtcccg caactccccg 30240 
agtgtctctg gagcttcgtc accgttcatc caggtcacaa tggcgctttc ggcggtcaac 30300 
cgtgcgttcg gaatctcggt aaatgcggcc aactccggct gagcgtccgt cagtactctg 30360 
cgtatttcgg ccgcggtctg gcaacgcctg cgatccgatt ccggctcctc cgcttcccgc 30420 
gatccgatat gcaggatcgc ctggtagcgg aagcgggtca gctcgttatg cgaccggccg 30480 
cgacgcggca ggatttcaat ccggccgatc tccggaatct gttcgcggag agcaaagaag 30540 
aacgcgggat cgaccacgag ttcctcttcc tgcgacgcga gcgaacgcac gcgttgccga 30600 
aactcattcc gggtcaacga cgcgggtgcg cgctgaactt ctaaagaagc gtaaaacgtc 30660 
tccagcagcg ggagactgcg gacatcgccg acaaatacga tgccgcccgg tttgaccaca 30720 
cgcaccgcct cggccagcac gcgccgcaga tacgcttcgc cggggaagta ctggataacg 30780 
gagttcagaa caaccgcatc gcacgagcga ctgtcgatct cgcacgcgtc gtcggccgcc 30840 
tgccggaacg tgcggacatt tgccaggccg gtgcggtccg cgtgagcggc gatgtagtcc 30900 
agcgccttct gcgaaaagtc cgtggcccag tactccgaac agtggggagc gacgcggaag 30960 
agcagcagtc ccgtaccaca gccaatctcg agcacgcgac gcggccgcga ggccaggatg 31020 
cgatcgacgg aatcctgcac ccactcccgc atctcggcag ctggaatcgg ctctccggta 31080 
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acactgcttc tccagccgac gatgttgaac tccggatccg cgttcggcgc attctgttca 31140 
tatgtggtgt cccagacgga ttgccactgc gtcacgtgct cggactcgac tcggtcgtgg 31200 
aatgtgtcgg cggctgccgt cgcgcgatgc ccgtcagcaa gggggacaat gtaggccgcc 31260 
agatacttac cggccgcgtc attttctctg gcggtgacca cagcatgtcg gaccgccggg 31320 
tgactgcgga ccgcggcctc gatctcgccg gtttcgatgc ggaacccgcg tatcttcacc 31380 
tggtggtcga tccggccgag atactcgagc gcgccgtcgc gttggcggcg ggcgagatct 31440 
cccgtgcgat acagccgagt gccatgaggg tcgaacgaat tggcgacgaa cttgtccgcg 31500 
ctgagttccg gacgattcag gtatccacgg gcgagcccgg cgccgccgat gtacagttcg 31560 
cccgcaacac cgatgggtgc gggctgcatc cgatcgtcaa gcacatagag ctgagtgttt 31620 
gcgatggggc ggccaatcga aaccggtccg tcacctgtcg tcacccgttg gatggcggac 31680 
caaattgtcg tttcggtagg tccgtaaaga ttccatagcg ccgcggttcg ttgcaggagc 31740 
cggtcggcaa gatcgcgagg aagggcttca ccgccgcaga gcgccgtcag gcggcggtcg 31800 
ccgggccagc cggatgcgag cagcagacgc caggtggcgg gagttgcctg catcattgtc 31860 
gctttgctgc gcgcgagttc cctcgccagc ctctcaccat cgacggccgt ctcctggttc 31920 
gccaccacga cgcgcgcgcc ggcgctcaag ggcaaaaaga tctcgagcgc ggaaatgtcg 31980 
aacatgaacg tcgtgagggc gagcagcgta tcgcggtcgc tgatgcccgg ctcatgccgc 32040 
atcgacgaaa gaaaattgac gacggcctgg tgtgtgattt gcacgccttt cggccggccg 32100 
gtcgaaccgg aggtgtacag gacataggcg agatcggcgg gagtcgcgag cgggttcgga 32160 
ttggtgtcgg gctgcgtcca tacttccgat tccgtgacat tcagcacaac gaccggcctg 32220 
gtctcttcca gcatcagccg aagacgttgc gccggatatt ccggttccag cggaacgtag 32280 
gccgcgccgg ccttcaggac gcccaacagc cctgcgacgg tttcgagcga ccgcgtgaca 32340 
tggatgccaa ccatttcgcc gggtccagcg ccgcgcgagc ggagatagtg cgcgatccgg 32400 
ttggcgctcc cgttgagttc gcgatatgtc agattctgct caccgaagct caacgcgatg 32460 
gcgtcgggcg tcaactccac ctgagcttcg aacagctcgt gcacgcattg ggacgggaat 32520 
tccgcggcgg tcgcattcca ctcttcgagc agctggatgc gttcccgggt tgtcagcagc 32580 
ggtagatcga caactggaca ggcgggattc tccgcgattc cttccagcag cacggcgaag 32640 
tgcaaggaga gacgttcaat cgtggcagca tcaaaaatgt ccgtgttgta ttgcagaaag 32700 
gcggagaggc ctccatcggt ttcgaccatc atcagatcca ggtcaaaccg gctctgtcgc 32760 
agcggcatcg ccagggactc cagtgtgagg ctgccccagg ccatgcgacc gccggactga 32820 
cccaacatga acggcacgga ttcgggaatg cgatgaggct gctggagcac gaatagaacc 32880 
cgcagtccgg gacccaaccg ctccacgatc cgggcatacg ggtactcctg gtgctcgatc 32940 
gcgccgagaa gcgtttgccg aatccgggcg agcaccgtat tgaaatccgg atcgcctgaa 33000 
agttctcctc gcaggattac gggattcacg aagtatccga cgagatcggc gaattccggt 33060 
tgcgtccgac cgttggtgag ggtgccggtc aggatctctt cttgtgaggt ccaacgggag 33120 
agaagcactt gaaacgccgc catcagcgtc gcatgcagcg tcgcgttctg ccgccgcgcg 33180 
agcgccttca gtttcgcagt cagcgcgggt tcgattcgga acgagtgaga gtttccccgg 33240 
aaactctgca ccggcggact gggacgatcc gacgggagat tcagaaccgg aagctggccg 33300 
gaaagctgcg aggaccagta gttccaaagc cgctcgccct cggttccggc caacagttcg 33360 
ttctgccagc ggacgaaagc ggcgaagctc gcgaccggcg gcgcgacagg cggaccgcca 33420 
gctgtcctcg cgaggtagat actgcggagt tcatccacca tcaccagcag tgaccagaag 33480 
tcggcgagga tgtgatgcac cacgatggcc agaacctgat ccttccccga ctgcaccagg 33540 
agacgcgagc ggaaacagtt ttcgccgaga ttgaagggcg cgtggaagac gccgtcgatc 33600 
agcaccgcct catcgtccgg cgaacacggg atcacttcga aatccaccgg gacgctgctg 33660 
tggaccgttt gaacgggtgc gccgccactc tccgcaatcg tcgttcgcag cgccggatga 33720 
cgatccacca ggtcctgcag cgaacggcgc aacgcctgcg gatcgaaagc gcctctcgcg 33780 
cgcgcgatcc acgcgatgtt gtatgcggga ctttccggcg cgcttcggta aataaaccaa 33840 
agcgcctgct ggccggcgct gagagggtag gagagggcag gaaccgaggc ctgcgccgca 33900 
ggttccggcg ccaccgtcgt gcgttcgctg aggccgctta gatcgcttag atccctggcc 33960 
agttccgcaa cgctggggcc gtctagaaat cggaccatgg gcagcaagac gcgcagatcc 34020 
gtatcgatcc ggttgcgtaa ttgcaccgcc atgagcgagt ccaatcccat acgcaccagc 34080 
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ggctgctgta agtccaccgc cgattccggg cactgcagtt tttttttttt tttttttttt 34140 
tttttttttt tttttttttt tttttttttt tttttttttt ttttaatgcg gtagtttatc 34200 
acagttaaat tgctaacgca gtcaggcacc gtgtatgaaa tctaacaatg cgctcatcgt 34260 
catcctcggc accgtcaccc tggatgctgt aggcataggc ttggttatgc cggtactgcc 34320 
gggcctcttg cgggatgatc cctgtcagtc atgcgggcaa cttagccgag ccctacgaca 34380 
ccgcccgtgg gaaggtgagt gtctaactgc gtgacaacgc cagcgcacag cggcggacaa 34440 
ccgcgagcac ccatggactg gcgccgcagg tgagaagcac actggcccaa ggtcgagcgc 34500 
ccacccaagt tgcttcggga cgaagaggtc gtgggttcaa atcccgccac cccgacagag 34560 
aaacaccagg tgaggcagac cgtaacgtta cggtctgcct cacctgtttt ctgtgcgtgt 34620 
ctatctgcgt gactatcgcg ccggaccccg cttgaagatg ccgtccatga ccacagcgcc 34680 
ggtctggatg acgggccgga tctgcttccg gtagacctcc tcagtcacgg ccgtaccgga 3474 0 
gtgtccgacg agccgggaga tctcctccag cgggacgccg cggtcggaca gcagggacac 34800 
gaagctgtgc ctcagctccc tcggtgtcca ctcgtcggcg ttgatcccgt tggcatcctt 34860 
gagcgcctgg cggaaggcgc gccggacgtt agtcgcgtcg agcggcttgc caacggccga 34920 
cgagaagacc aggccgtgtt cctcccactt gtcaccggcg gcgagccgtt cccagccctg 34980 
gtcctcaaag tgctgccaga ggacctccac gcaacgcgcc ggcagggcga gcgttcgccg 35040 
agacttccgg gttttcgtgt ccccaccgcg ccggaccgag cgccagacgg cgatgtgcgg 35100 
aggctgcggc ggctcaacgt ccggacttcc cttgaggaag acgtggtccc aggtcagcgc 35160 
ccgcagctcc tcggtgcgcg caccggtcag cagggcgacg acgatgtagg cgtgcatcga 3522 0 
cgtgccctcg gcagcattca gcaccgcctc ggcctgggcg aaggtgagcg ccttggacgg 35280 
ccggccaggc tggccctggg gcacagagca cagctccacc acgttgcgct tcaccttgtc 35340 
acgcgccatg gcccgcttga ccgcccggtt caggcaggag tggaccgcct gaaggctgcg 35400 
cgtgctcaga gtctgagcct tggcggccag ccagcggtcg acgtcctctg cgctgaggtc 35460 
acgcagcttc cgggcaccca aacccggtat gacgtgcttc tggcttaggt gggtgcagtt 35520 
ctcgacggtg cgctggtcac ggccagcgag accgtaggca agccagtcgt tcaccgcgtc 35580 
ggcgacggtg taccccgtgg gtgcgatcgc gagaccgtct tcgtggtcac gcagaacctc 35640 
tttgagcttg ttcttagcct ccgtcttggt cttgccactc ccccgcttga cgatccgctt 35700 
accgctcgga tcgaagccga ggttcgccgt ggcgatccag cgctgtctct tctcgtccca 35760 
gtggaggccg ccgtcacccc ggctacgtcg cttggccatg gatcgatccc ctgcccggca 35820 
aaatagagtg ttcctctgcc ctctttagca ttcagtgtat ccattaccgt catcaattgc 35880 
tcactcccgg ggcgcggtgc gttgtcatcg aataaattga gctgcgcgac tccctgactg 35940 
aagaaatccc ccagcatcac gcccgctttt tggtaacgat ggcccgcttg ccagatggca 36000 
tccagagatc gcgtagcagc gttaatgata tccctgctgt cctgagtggg cgtcagcagt 36060 
tttaccgacg cgctattgcc gtaataaggt tcattgagcg caaatggtga cgtcttaata 36120 
aacgtggaga taaaccgaca atattgatgc tcgctgcgaa gtttttccgc cgcccgggca 36180 
gcgtaactac aaatggcctg ccgcatcgac ggataatccg tgatgcgttc accaaacgag 36240 
cgggaacaga taatttcctg cttcgtcggt gcaaactctt ccagttgcaa acagggttcg 36300 
ccgcgcagtt cacgcaccgt tctttcgagc acgacattaa aatgtttacg gataaaccgg 36360 
atatctgtat ccgccaaatc gagaacggtt ttgatcccca tcgcgtccag ttttttgctg 36420 
atccgccgtc caatccccca gacgtcatcc acggggagag cagacattaa tttacgctgg 36480 
cgttccagat ttgataaatc caccacccca cccgtctgcc gctgccattt ttttgccgca 36540 
tgattggcaa gctagcttta tgcttgtaaa ccgttttgtg aaaaaatttt taaaataaaa 36600 
aaggggacct ctagggtccc caattaatta gtaatataat ctattaaagg tcattcaaaa 36660 
ggtcatccac cggatcagct tagtaaagcc ctcgctagat tttaatgcgg atgttgcgat 36720 
tacttcgcca actattgcga taacaagaaa aagccagcct ttcatgatat atctcccaat 36780 
ttgtgtaggg cttattatgc acgcttaaaa ataataaaag cagacttgac ctgatagttt 36840 
ggctgtgagc aattatgtgc ttagtgcatc taacgcttga gttaagccgc gccgcgaagc 36900 
ggcgtcggct tgaacgaatt gttagacatt atttgccgac taccttggtg atctcgcctt 36960 
tcacgtagtg gacaaattct tccaactgat ctgcgcggat cgatccttgc cgagctggga 37020 
tggaagcccg gccgacccac cctggaggag atgatcgagg atgccagggc ctttcacgcc 37080 
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cgccgctgct gagcgtccgc cgccgggccc gcaccgccgt cggccggccc gctccgggct 37140 
cgcagcagcg ggcttcggcg cgggcccggg gctcccgggc cgccgggcgg ggctccgccc 37200 
ggcggccgcc gggggccggg ggcggcgccg ggcggcccgg ggcgtcaggc gccgggggcg 37260 
gtgtccggcg gcccccagag gaactgcgcc agttcctccg gatcggtgaa gccggagaga 37320 
tccagcgggg tctcctcgaa cacctcgaag tcgtgcagga aggtgaaggc gagcagttcg 37380 
cgggcgaagt nctcggtccg cttccactgc gccccgtcga gcagcgcggc caggatctcg 37440 
cggtcgcccc ggaaggcgtt gagatgcagt tgcaccaggc tgtagcggga gtctcccgca 37500 
tagacgtcgg tgaagtcgac gatcccggtg acctcggtcg cggccaggtc cacgaagatg 37560 
ttggtcccgt gcaggtcgcc gtggacgaac cggggttcgc ggccggccag cagcgtgtcc 37620 
acgtccggca gccagtcctc caggcggtcc agcagccggg gcgagaggta gccccacccg 37680 
cggtggtcct cgacggtcgc cgcgcggcgt tcccgcagca gttccgggaa gacctcggaa 37740 
tggggggtga gcacggtgtt cccggtcagc ggcaccctgt gcagccggcc gagcacccgg 37800 
ccgagttcgc gggccagggc gagcagcgcg ttccggtcgg tcgtgccgtc catcgcggac 37860 
cgccaggtgg tgccggtcat ccggctcatc accaggtagg gccacggcca ggctccggtg 37920 
ccgggccgca gctcgccgcg gccgaggagg cggggcaccg gcaccggggc gtccgccagg 37980 
accgcgtacg cctccgactc cgacgcgagg ctctccggac cgcaccagtg ctcgccgaac 38040 
agcttgatca ccgggccggg ctcgccgacc agtacggggt tggtgctctc gccgggcacc 38100 
cgcagcaccg gcggcaccgg cagcccgagc tcctccaggg ctcggcgggc cagcggctcc 38160 
cagaattcct ggtcgttccg caggctcgcg taggaatcat ccgaatcaat acggtcgaga 38220 
agtaacaggg attcttgtgt cacagcggac ctctattcac agggtacggg ccggcttaat 38280 
tccgcacggc cggtcgcgac acggcctgtc cgcaccgcgg atcaggcgtt gacgatgacg 38340 
ggctggtcgg ccacgtcggg gacgttctcg gtggtgctgc ggtcgggatc gccaatctct 38400 
acgggccgac cgaggcgacg gtgtacgcca cagcttggcg taatcatggt catagctgtt 38460 
tcctgtgtga aattgttatc cgctcacaat tccacacaac atacgagccg gaagcataaa 38520 
gtgtaaagcc tggggtgcct aatgagtgag ctaactcaca ttacggatca gtgagggttt 38580 
gcaactgcgg gtcaaggatc tggatttcga tcacggcacg atcatcgtgc gggagggcaa 38640 
gggctccaag gatcgggcct tgatgttacc cgagagcttg gcacccagcc tgcgcgagca 38700 
ggggaattga tccggtggat gaccttttga atgaccttta atagattata ttactaatta 38760 
attggggacc ctagaggtcc ccttttttat tttaaaaatt ttttcacaaa acggtttaca 38820 
agcataaagc tatcgtccat tccgacagca tcgccagtca ctatggcgtg ctgctagcgc 38880 
tatatgcgtt gatgcaattt ctatgcgcac ccgttctcgg agcactgtcc gaccgctttg 38940 
gccgccgccc agtcctgctc gcttcgctac ttggagccac tatcgactac gcgatcatgg 39000 
cgaccacacc cgtcctgtgg atctgcctcg ctggcctgcc gcagttcttc aacctcccgg 39060 
cgcagctttt cgttctcaat ttcagcatcc ctttcggcat accattttat gacggcggca 39120 
gagtcataaa gcacctcatt acccttgcca ccgcctcgca gaacgggcat tccctgttcc 39180 
tgccagttct gaatggtacg gatactcgca ccgaaaatgt cagccagctg ctttttgttg 39240 
acttccattg ttcattccac ggacaaaaac agagaaagga aacgacagag gccaaaaagc 39300 
tcgctttcag cacctgtcgt ttcctttctt ttcagagggt attttaaata aaaacattaa 39360 
gttatgacga agaagaacgg aaacgcctta aaccggaaaa ttttcataaa tagcgaaaac 39420 
ccgcgaggtc gccgccccgt aacaaggcgg atcgccggaa aggacccgca aatgataata 39480 
attatcaatt gcatactatc gacggcactg ctgccagata acaccaccgg ggaaacattc 39540 
catcatgatg gccgtgcgga cataggaagc cagttcatcc atcgctttct tgtctgctgc 39600 
catttgcttt gtgacatcca gcgccgcaca ttcagcagcg tttttcagcg cgttttcgat 39660 
caacgtttca atgttggtat caacaccagg tttaactttg aacttatcgg cactgacggt 39720 
taccttgttc tgcgctggct catcacgctg gataccaagg ctgatgttgt agatattggt 39780 
caccggctga ggtgtttcga ttgccgctgc gtggatagca ccatttgcga tagcggcgtc 39840 
cttgatgaat gacactccat tgcgaataag ttcgaaggag acggtgtcac gaatgcgctg 39900 
gtccagctcg tcgattgcct tttgtgcagc agaggtatca atctcaacgc caagcgtcat 39960 
cgaagcgcaa tattgctgct caccaaaacg cgtattgacc aggtgttcaa cggcaaattt 40020 
ctgcccttct gatgtcagaa aggtaaagtg attttctttc tggtattcag ttgctgtgtg 40080 
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tctggtttca gcaaaaccaa gctcgcgcaa ttcggctgtg ccagatttag aaggcagatc 40140 
accagacagc aacgcgccac ggaaaaacag cgcatacaga acatccgtcg ccgcgccgga 40200 
caacgtgata attttatgac ccatgattta tttcctttta gacgtgagcc tgtcgcacag 40260 
caaagccgcc gaaagttaac ttgtttattg cagcttataa tggttacaaa taaagcaata 40320 
gcatcacaaa tttcacaaat aaagcatttt tttcactgca ttctagttgt ggtttgtcca 40380 
aactcatcaa tgtatcttat catgtctgga tctgacgggt gcgcatgatc gtgctcctgt 40440 
cgttgaggac ccggctaggc tggcggggtt gccttactgg ttagcagaat gaatcaccga 40500 
tacgcgagcg aacgtgaagc gactgctgct gcaaaacgtc tgcgacctga gcaacaacat 40560 
gaatggtctb cggtttccgt gtttcgtaaa gtctggaaac gcggaagtca gcgctcttcc 40620 
gcttcctcgc tcactgactc gctgcgctcg gtcgttcggc tgcggcgagc ggtatcagct 40680 
cactcaaagg cggtaatacg gttatccaca gaatcagggg ataacgcagg aaagaacatg 40740 
tgagcaaaag gccagcaaaa ggccaggaac cgtaaaaagg ccgcgttgct ggcgtttttc 40800 
cataggctcc gcccccctga cgagcatcac aaaaatcgac gctcaagtca gaggtggcga 40860 
aacccgacag gactataaag ataccaggcg tttccccctg gaagctccct cgtgcgctct 40920 
cctgttccga ccctgccgct taccggatac ctgtccgcct ttctcccttc gggaagcgtg 40980 
gcgctttctc atagctcacg ctgtaggtat ctcagttcgg tgtaggtcgt tcgctccaag 41040 
ctgggctgtg tgcacgaacc ccccgttcag cccgaccgct gcgccttatc cggtaactat 41100 
cgtcttgagt ccaacccggt aagacacgac ttatcgccac tggcagcagc cactggtaac 41160 
aggattagca gagcgaggta tgtaggcggt gctacagagt tcttgaagtg gtggcctaac 41220 
tacggctaca ctagaaggac agtatttggt atctgcgctc tgctgaagcc agttaccttc 41280 
ggaaaaagag ttggtagctc ttgatccggc aaacaaacca ccgctggtag cggtggtttt 41340 
tttgtttgca agcagcagat tacgcgcaga aaaaaaggat ctcaagaaga tcctttgatc 41400 
ttttctacgg ggtctgacgc tcagtggaac gaaaactcac gttaagggat tttggtcatg 41460 
agattatcaa aaaggatctt cacctagatc cttttaaatt aaaaatgaag ttttaaatca 41520 
atctaaagta tatatgagta aacttggtct gacagttacc aatgcttaat cagtgaggca 41580 
cctatctcag cgatctgtct atttcgttca tccatagttg cctgactccc cgtcgtgtag 41640 
ataactacga tacgggaggg cttaccatct ggccccagtg ctgcaatgat accgcgagac 41700 
ccacgctcac cggctccaga tttatcagca ataaaccagc cagccggaag ggccgagcgc 41760 
agaagtggtc ctgcaacttt atccgcctcc atccagtcta ttaattgttg ccgggaagct 41820 
agagtaagta gttcgccagt taatagtttg cgcaacgttg ttgccattgc tgcaggcatc 41880 
gtggtgtcac gctcgtcgtt tggtatggct tcattcagct ccggttccca acgatcaagg 41940 
cgagttacat gatcccccat gttgtgcaaa aaagcggtta gctccttcgg tcctccgatc 42000 
gttgtcagaa gtaagttggc cgcagtgtta tcactcatgg ttatggcagc actgcataat 42060 
tctcttactg tcatgccatc cgtaagatgc ttttctgtga ctggtgagta ctcaaccaag 42120 
tcattctgag aatagtgtat gcggcgaccg agttgctctt gcccggcgtc aacacgggat 42180 
aataccgcgc cacatagcag aactttaaaa gtgctcatca ttggaaaacg ttcttcgggg 42240 
cgaaaactct caaggatctt accgctgttg agatccagtt cgatgtaacc cactcgtgca 42300 
cccaactgat cttcagcatc ttttactttc accagcgttt ctgggtgagc aaaaacagga 42360 
aggcaaaatg ccgcaaaaaa gggaataagg gcgacacgga aatgttgaat actcatactc 42420 
ttcctttttc aatattattg aagcatttat cagggttatt gtctcatgag cggatacata 42480 
tttgaatgta tttagaaaaa taaacaaata ggggttccgc gcacatttcc ccgaaaagtg 42540 
ccacctgacg tctaagaaac cattattatc atgacattaa cctataaaaa taggcgtatc 42600 
acgaggccct ttcgtcttca agaattcgcg gccgcaatta accctcacta aagggatccc 42660 
tatagtgagt cgtattatgc ggccgcgaat tctcatgttt gaccgcttat catcgat 42717 
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<220> 

<223> Description de la sequence artificielle : insert 
d'ADN du cosmide a26Gl - brin codant 

<400> 114 

actgcagtgc ccggaatcgg cggtggactt acagcagccg ctggtgcgta tgggattgga 60 
ctcgctcatg gcggtgcaat tacgcaaccg gatcgatacg gatctgcgcg tcttgctgcc 120 
catggtccga tttctagacg gccccagcgt tgcggaactg gccagggatc taagcgatct 180 
aagcggcctc agcgaacgca cgacggtggc gccggaacct gcggcgcagg cctcggttcc 240 
tgccctctcc taccctctca gcgccggcca gcaggcgctt tggtttattt accgaagcgc 300 
gccggaaagt cccgcataca acatcgcgtg gatcgcgcgc gcgagaggcg ctttcgatcc 360 
gcaggcgttg cgccgttcgc tgcaggacct ggtggatcgt catccggcgc tgcgaacgac 420 
gattgcggag agtggcggcg cacccgttca aacggtccac agcagcgtcc cggtggattt 480 
cgaagtgatc ccgtgttcgc cggacgatga ggcggtgctg atcgacggcg tcttccacgc 540 
gcccttcaat ctcggcgaaa actgtttccg ctcgcgtctc ctggtgcagt cggggaagga 600 
tcaggttctg gccatcgtgg tgcatcacat cctcgccgac ttctggtcac tgctggtgat 660 
ggtggatgaa ctccgcagta tctacctcgc gaggacagct ggcggtccgc ctgtcgcgcc 720 
gccggtcgcg agcttcgccg ctttcgtccg ctggcagaac gaactgttgg ccggaaccga 780 
gggcgagcgg ctttggaact actggtcctc gcagctttcc ggccagcttc cggttctgaa 840 
tctcccgtcg gatcgtccca gtccgccggt gcagagtttc cggggaaact ctcactcgtt 900 
ccgaatcgaa cccgcgctga ctgcgaaact gaaggcgctc gcgcggcggc agaacgcgac 960 
gctgcatgcg acgctgatgg cggcgtttca agtgcttctc tcccgttgga cctcacaaga 1020 
agagatcctg accggcaccc tcaccaacgg tcggacgcaa ccggaattcg ccgatctcgt 1080 
cggatacttc gtgaatcccg taatcctgcg aggagaactt tcaggcgatc cggatttcaa 1140 
tacggtgctc gcccggattc ggcaaacgct tctcggcgcg atcgagcacc aggagtaccc 1200 
gtatgcccgg atcgtggagc ggttgggtcc cggactgcgg gttctattcg tgctccagca 1260 
gcctcatcgc attcccgaat ccgtgccgtt catgttgggt cagtccggcg gtcgcatggc 1320 
ctggggcagc ctcacactgg agtccctggc gatgccgctg cgacagagcc ggtttgacct 1380 
ggatctgatg atggtcgaaa ccgatggagg cctctccgcc tttctgcaat acaacacgga 1440 
catttttgat gctgccacga ttgaacgtct ctccttgcac ttcgccgtgc tgctggaagg 1500 
aatcgcggag aatcccgcct gtccagttgt cgatctaccg ctgctgacaa cccgggaacg 1560 
catccagctg ctcgaagagt ggaatgcgac cgccgcggaa ttcccgtccc aatgcgtgca 1620 
cgagctgttc gaagctcagg tggagttgac gcccgacgcc atcgcgttga gcttcggtga 1680 
gcagaatctg acatatcgcg aactcaacgg gagcgccaac cggatcgcgc actatctccg 1740 
ctcgcgcggc gctggacccg gcgaaatggt tggcatccat gtcacgcggt cgctcgaaac 1800 
cgtcgcaggg ctgttgggcg tcctgaaggc cggcgcggcc tacgttccgc tggaaccgga 1860 
atatccggcg caacgtcttc ggctgatgct ggaagagacc aggccggtcg' ttgtgctgaa 1920 
tgtcacggaa tcggaagtat ggacgcagcc cgacaccaat ccgaacccgc tcgcgactcc 1980 
cgccgatctc gcctatgtcc tgtacacctc cggttcgacc ggccggccga aaggcgtgca 2040 
aatcacacac caggccgtcg tcaattttct ttcgtcgatg cggcatgagc cgggcatcag 2100 
cgaccgcgat acgctgctcg ccctcacgac gttcatgttc gacatttccg cgctcgagat 2160 
ctttttgccc ttgagcgccg gcgcgcgcgt cgtggtggcg aaccaggaga cggccgtcga 2220 
tggtgagagg ctggcgaggg aactcgcgcg cagcaaagcg acaatgatgc aggcaactcc 2280 
cgccacctgg cgtctgctgc tcgcatccgg ctggcccggc gaccgccgcc tgacggcgct 2340 
ctgcggcggt gaagcccttc ctcgcgatct tgccgaccgg ctcctgcaac gaaccgcggc 2400 
gctatggaat ctttacggac ctaccgaaac gacaatttgg tccgccatcc aacgggtgac 2460 
gacaggtgac ggaccggttt cgattggccg ccccatcgca aacactcagc tctatgtgct 2520 
tgacgatcgg atgcagcccg cacccatcgg tgttgcgggc gaactgtaca tcggcggcgc 2580 
cgggctcgcc cgtggatacc tgaatcgtcc ggaactcagc gcggacaagt tcgtcgccaa 2640 
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ttcgttcgac cctcatggca ctcggctgta tcgcacggga gatctcgccc gccgccaacg 2700 
cgacggcgcg ctcgagtatc tcggccggat cgaccaccag gtgaagatac gcgggttccg 2760 
catcgaaacc ggcgagatcg aggccgcggt ccgcagtcac ccggcggtcc gacatgctgt 2820 
ggtcaccgcc agagaaaatg acgcggccgg taagtatctg gcggcctaca ttgtccccct 2880 
tgctgacggg catcgcgcga cggcagccgc cgacacattc cacgaccgag tcgagtccga 2940 
gcacgtgacg cagtggcaat ccgtctggga caccacatat gaacagaatg cgccgaacgc 3000 
ggatccggag ttcaacatcg tcggctggag aagcagtgtt accggagagc cgattccagc 3060 
tgccgagatg cgggagtggg tgcaggattc cgtcgatcgc atcctggcct cgcggccgcg 3120 
tcgcgtgctc gagattggct gtggtacggg actgctgctc ttccgcgtcg ctccccactg 3180 
ttcggagtac tgggccacgg acttttcgca gaaggcgctg gactacatcg ccgctcacgc 3240 
ggaccgcacc ggcctggcaa atgtccgcac gttccggcag gcggccgacg acgcgtgcga 3300 
gatcgacagt cgctcgtgcg atgcggttgt tctgaactcc gttatccagt acttccccgg 3360 
cgaagcgtat ctgcggcgcg tgctggccga ggcggtgcgt gtggtcaaac cgggcggcat 3420 
cgtatttgtc ggcgatgtcc gcagtctccc gctgctggag acgttttacg cttctttaga 3480 
agttcagcgc gcacccgcgt cgttgacccg gaatgagttt cggcaacgcg tgcgttcgct 3540 
cgcgtcgcag gaagaggaac tcgtggtcga tcccgcgttc ttctttgctc tccgcgaaca 3600 
gattccggag atcggccgga ttgaaatcct gccgcgtcgc ggccggtcgc ataacgagct 3660 
gacccgcttc cgctaccagg cgatcctgca tatcggatcg cgggaagcgg aggagccgga 3720 
atcggatcgc aggcgttgcc agaccgcggc cgaaatacgc agagtactga cggacgctca 3780 
gccggagttg gccgcattta ccgagattcc gaacgcacgg ttgaccgccg aaagcgccat 3840 
tgtgacctgg atgaacggtg acgaagctcc agagacactc ggggagttgc gggaccggct 3900 
gcgccagacg tcgccttccg gcgtcgatcc cgccgatcta tggcgtatgg acgaagacct 3960 
gccgtaccgc gtggcaatcg actggagcag tcatgggcca cacggacgct tcgacgcgac 4020 
cttctgccgt gcggcggccg gtccgccggc ttcccgtccg cgacgccgcc tggccggccc 4080 
gtatacgaac gatccgctgc gagccgtcta tacgcgcacg gttgtgccgc agttgcgtac 4140 
tcatctgaag gagaagctgc ccgactacat gatcccgacc gcgtgggtcg tgctccacga 4200 
aatgccgctg acgcccaacg gaaaaatcga ccgtaacgcc ctgcccgatc ccgagcccag 4260 
ccggcgagcc cacgccgaag cattcacgcc tccggaaact ccggtggaac aggtactcgc 4320 
ccacatttgg ggcgaggtgc tcggcatgga tggcatcggc gtccatgatc acttcttcga 4380 
ctctggagga cattcgctgc tggtcacgca gatgatcgcc cgcgtgcgcg acatgctcca 4440 
cgtggaagtg ccctttcgaa ccgtgtttaa cgcccccacg gttcgaggct tcgccgtcgc 4500 
tattcaggac ggcgtagacc caggatgggc aaggcgagcc gccgatttgc tgatcgctgt 4560 
ttcccaaatg tcagatgttc aaatcgagcg tatgatgagc gccgcccaag actaggaaca 4620 
cagcgggttg taatgcagaa ttcgtcgcca aataccatag acctctcgct cgcccgccgc 4680 
caattgctcg accgtctgct gcaggaaaac agccccgaac atcgcatccc gcggcgtgaa 4740 
aaccgggatg ccgcaccctt gtcgctggcc cagcagcggc tttggtttct ccatcagctc 4800 
gacccggatt ctcccgccta caacattccc atagcgctgc atatccgagg tccgctggat 4860 
attcgcgtcc tcctgcggag tctggaggcc gtggtgcagc ggcacgagag cctgcgcagc 4920 
tgcattggcg gtgtggatgg agaggcgcgc cagagcctcc tggcgcgagt gacactggaa 4980 
cttccggttg ttcaggctga cggaatcgca gaagcgcggc aaatggcctt gcgtgatgcc 5040 
cagatcccgt tcgacctgcg aaaacccccg cttctgcgga ccaagctgat ctgcctcgat 5100 
gacaagcagc agattctcct gctgacgttg agccacatca tcgcggatgc gtggtcggtc 5160 
gagacgttcg tc'cgcgacct gacgcgatcg tacgaagcgt tcgtgcaggg gcggccatcg 5220 
ccgctcatgg aactgccgat tcagtatggc gactgggccg tccatcagca gacgtcgctg 5280 
aaccaaaccg cgcagcagta ctggaagaaa cagctgtcgg gcaccttgcc tttcctcgac 5340 
cttcctaccg atcgcccccg gcccgcgcag cagacctggc ggggcgccgt ggagaccaca 5400 
gccctcggcc gtgatttgac cgatggactc cacgcgtttg ccttgcgtga aggagcgacg 5460 
gtgttcatga cggcaatcgc ggcgtttcag gtgctgctgc atcgctatac cgcgcaggaa 5520 
gacatcctta tcggggttcc agtcgcgggc cgtacacaac gagaaacgga aggtctcgtc 5580 
ggttgtttcg ccaacatgat cgtcctgcgc ggcgatctgc gcgacgatcc gtcgtttcgc 5640 
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agtcttctcg cccgcacccg cgacaccgct ttgagcgccc tctctcatca ggactttcct 5700 
ttcgaacgcc tggttgagga actgcatcct ccgcgggacc tgagccggtc gcctgtattt 5760 
caggtctcct tcgcgctgct gcccgatgcg ccggccatca ccgtcatgcc tgggctcacc 5820 
atctcgcgcg agtacatgca caacggcgga tccaaactcg acctcggcgt gaccctcgag 5880 
ccatccggcg atggactgat ggcgtccgcc gaatacaaca ccgatttgtt cgatgcggca 5940 
accatcgcct ccctgctcga tgcgtaccga accctgctgg cgagcgtggt gacggatccc 6000 
gacgtccgca tttcaaccgc tgcgctgttg tcccccgcgg tccgaagccg gatgctcgag 6060 
cagcacaatg cgacacggcg cgatgccggt ccgaacgggt gtgcgcatga actggtcgaa 6120 
gctcaggcgg aacgcactcc gcacgccgtc gccgttgtct tcgaagacca tcagttgacc 6180 
tacgccgagc tgaatgcgcg ggccaaccgc ctggctcatc gtctgagcgc atccggcgcg 6240 
ggcccgggaa agatcatcgc tctggcgatg gagcgctcgc tggagatggt gattgcgctg 6300 
cttgcgattc tgaagtccgg cagcgcgtac ctgcctctcg atcccgcgca ccccaaggat 6360 
cgtctcgccc ggattctcga tgaagtgcaa ccgcacgcgg tcctcacgca ggaggcggtg 6420 
gctgagatga tggcgatgat ggcgatgatg gcggtcgccg tcgaaccaga agctgcgaat 6480 
ctcgtcagcg gcagcaagcc cgacgatctc gcctacatca tatatacctc cggatcgacg 6540 
gggcgaccga agggcgtgga gatccgccac tcgtcgctag tcaatctgct gcgctccatg 6600 
cagcgcgagc cgggtctgac agccgccgat gggctggtcg ccgtcaccac cgtgtcattc 6660 
gatattgccg gactggagat ctggctgccg ttgatcaccg gcgcccgcgt catcgtcgcc 6720 
acccgcgaga tcgtggttga cggcgagcgg ctcaccaccc tgctggataa gtcgggcgct 6780 
acggtcatgc aggcgacccc gagcggttgg cggcaattgc tggattcggg ctggaagccg 6840 
ggtaaaggct tccgtgtttt ctgcggcggt gaagctctgc cgccggaact ggcgcgccgc 6900 
attctcgata gtggcgtaga gctgtggaat ctttacggac cgacggagac caccatatgg 6960 
tcggccgtgc acaagacaca aagactgggt gcctccgata gcatcgtgcc gatcggccat 7020 
cccatcgaca acacgcagtt atacatcctg gattcgcgca tggagccggt tccccccgga 7080 
gttccgggag agctgtacat cggaggagcg ggactggcgc ggggctatca tcgcaacccc 7140 
gagctcacgc gtgagaaatt ccgcgagtgg cgtgatcgag gacgcattta ctctaccggc 7200 
gatctggctc gctaccgttc cgacggcgca gtcgagtgcc tgggacgagt cgatcgccag 7260 
atcaagctgc gcgggtttcg catcgaaccg gccgagattg aggccgcgat cgagacgcac 7320 
attgccgtga agcaggcgat tacggtcgtg aaggacgatc ggctgatcgc ctatctcgtt 73 80 
ccggcaacgg gcgacgtgcg cgatctgcag agcgatttgc ggtcgtggct ggcaacgcgc 7440 
cttcccgatt acatgatccc ctcggcgttt gtcagcctgt cctcccttcc gctgacgccc 7500 
aacggcaaaa tcgacgcgaa cgcgcttccc ggtttgccca caacgccggt tgctgctcgc 7560 
gagccgatgc gcggcgatgt ggtggagacg attgcgtcca tctggcgtga agttctgcgc 7620 
gtggagcacg tcgactatcg gcagaacttc tttgatgtcg gcgggcactc gctaatgctc 7680 
acacgggtgc gcggactgct cgaggagcgc ctggggttga cgctctccgt cgtcgatctg 7740 
ttccggcata cgacgatcga gtcgcttgcc ggcctggcag aaaaatccga acccgccgct 7800 
gcggaacctg cggctgcggt cgcagaagat cggatcgcag ttatcgggat ggccggccgg 7860 
ttcccggggg cgcgcaatgt ggaggagttc tggcgcaatc tgcgcgacgg tgtggattcc 7920 
atcgccaggc tttcgccgga agatctgctg gcgggcggca tcagcccgga ggtcttccag 7980 
gacccgagct acgtgccggc caagggtctg ctggacggca tcgagttttt cgatgccgcg 8040 
ttcttcggct acagtccgcg cgaagcggag atcatggacc cgcagcatcg cgtgtttctc 8100 
gagtgcgcgt gggaagcgat ggagaacgcg ggatatgcgg cgcgaagcta taagggttcg 8160 
atcggcgttt tcgcgggatg cggcgtcaat acctacctgc tgaacaacct cgccaccgcg 8220 
gagccgttcg atttctcacg cccctccgcg taccagctgc tgacggccaa cgacaaggat 8280 
ttcctggcca cgcgtgtctc ttacaagctg aacctccgcg ggcccagcct gacggttcag 8340 
acggcgtgct ccacctcgct ggtgtcggtg gtgatggcat gcgagagctt gcagcgcggc 8400 
gcctcggaca ttgccttggc cgggggagtt gccatcaatg ttccgcagtc cgtggggtac 8460 
ctgcaccagc cgggcatgat cctgtcgccc gacgggcgct gccgcgcctt cgatgagtcc 8520 
gctcaaggca cggtgccggg caacggcgcg ggtgtggtcg tcctcaagcg cttgagccgc 8580 
gctctggccg atggcgacac gatctacgcc gtcattcgcg gagcggctat taataatgat 8640 
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ggcgccgagc gcatggggtt taccgctcca ggtgtggacg gtcagacgcg attgattcgg 8700 
cgcactcaag agatggcggg cgtgaagccg gagtccatcg gctacatcga ggcccacgga 8760 
acagccacgc cgctcggcga tccggtggag atcgccgcca tcgctgccaa ctttccgaaa 8820 
aacggaagcg gcgatgtgta tatcggatcc gtcaagacca acatcggtca tctagacgtc 8880 
gcggccggtg tggccgggct gatcaagacg gtgcttgccg tccatcgcgg ccagattcct 8940 
cccagcctga atttccagcg tccgaatccg cgaattgatt tcgcaaacac tccgtttcgt 9000 
gtgagtacgc ggctgctcga ctggcccgcc ggaaagaccc cgagacgagc ggcagtcagt 9060 
tcgttcggga tcggcggcac caacgctcac gtgattctgg agcaagcgcc gccggtgacg 9120 
ccggccgcag ctgcgcccga acgatccgca catgtgcttt gcctgtccgc caatacagac 9180 
gcggccctcg aagaactggt gcgctcgtat cgcggccata tggacaacca gcccggtttg 9240 
tcgttcggcg atgtcgcatt cacggccaat gcagggcgcg tgcacttccc gcaccgtatc 9300 
tgcattgtgg cccggtcgag cgacgaggct cgccaacgac tgacggaggc acgacgggtt 9360 
cgcatcgccc agacgcgccc caagattgcg tttcttttca ccgggcaagg tgcgcaatac 9420 
gcgggcatgg gccgccagtt ctacgagtcg cagccggtgt ttcgcgccgc catggatgaa 9480 
tgcgcagctc tgctgaatgg acggctcgat ctgccggcgc tgttggccga tgacgcgttg 9540 
ctcgacgcga ccgccggcgc gcagcccgcg ctgtttgctt tgcagtgggc cttggcgcag 9600 
ttgtggaagt cctggggtgt gacgcccgac ctggtgatgg gacacagcgt cggcgaatac 9660 
gcggcggcgt gtattgccgg cgccgtcagc ctgccggatg cgctcggctt agttgccgaa 9720 
cgcggccggc tcatgcagaa cctgccggaa ggtgcgatgg ctgcggtcag cgccggcgag 9780 
cagcgctgtg ccgcagcgat cacctcgcgc gtctccattg cggccatcaa cggacccgct 9840 
gaggtcgtga tttcgggtgc gccgcaggat attgagagcg cgctggcaac tctacgtgcg 9900 
gagggcatca aaacgcagat gctggccgtt gcgcgcgcct ttcacagctc gagcatggat 9960 
ccgattctgg cggacctgca acgccgggcg gcggcgatcg cgtggcgcaa tccttcgatc 10020 
ggcttggttt cgaacctcac gggcaaactg gccggcgagg gacagctggc gaatccgctg 10080 
tactggcgag atcacgctcg aaaccctgtc cgtttcgccg acggtatcca aacgctcaag 10140 
gacgaaggct gcgacgtgtt tctcgagatc ggtcctaagc cggttctact cggcatgggc 10200 
caaaagtgcc tgcccgacga cgccaagcag tggctgccgt cgctgcgtaa aggccgcgat 10260 
gagtgggaga cgattctcag cagtgtggcg acgctatatc agggtgggtt cgacatcgat 10320 
tggcaggagt tcgaccgtcc gtattcgcga aggcgtgtcg ccctgccggc ctatcctttc 10380 
gagagacgcc gccattggat cgagcggagt tccagaccgg aacctgtagc ggttgcgagt 1044 0 
ggtctcgtcg ggtgccggct gtcgctaccg gtggcagacg ttatcttcga gtcgaaacta 10500 
tcgacggctt cgcctctact ctcagaccac cgatattacg gttcggtggt ggccccggcc 10560 
gtgtacttcc tggccatggc gctcgaggcg tcggcggagg tgtttggcgc cggccggcac 10620 
acgctggaaa acgtgaactt cgcgcaccct ctgatccttt cagcggagcg cgacacggct 10680 
gttcagctcg tgctttcaca gagcgatgac cggcatgcct cgttccgcat actcagcttg 10740 
tccgacggct cgtggaactt acatgctgcc ggcaatattg ccgcccacgc tggtgtcgct 10800 
cccgtgcccc gactggtcga tgaacgccgg cctgcggtgg atggagacac gtactattcg 10860 
ctgctgcgcc acctcgagat agaactgggg ccgagctacc gccgcataca gcgcattcat 10920 
ttcggtgaac aggaagcgct ggccgcgatt gattccgcaa cgccgctcaa tccccgttgt 10980 
gaattggcgg aagccggcct gcaattgctt agcgccgcgg cgagtcccgc gcttgcggat 11040 
ggcgccgaac atccgatatt cgctccgctc ggtatcgatc gcgtttgttt ttacggcagc 11100 
ctggagggcg ccgtatgggg ggccgcgcaa attctccggc attcgccgga cggctttacc 11160 
ggcgaggcgc agttgctgga ctcggagggc tgcgttctcg gggaacttca gggcgtgagt 11220 
ttccggcgcg tcactcgcgc atgggcgcag cgctcggaac ggaagcccga attgtatgag 11280 
gtcgagtggc ggcccgaacc gctccgccag ccttcgcgaa cgctacagcc tggggcatgg 11340 
ctgatcctgg ccgacagtgg cggcgcggcc cgcgctctgg cagatgcgct cacagctcag 11400 
ggcgagatgt gcgttaccgt gccgccagcc ggcgagtaca tgtccctagt cggtgagcgt 11460 
gactggcgcg ggatcgtcaa cctgtacagt ctcgatgatt atgagctcgg ctgccgcagc 11520 
actctggccc tggtgaagtc cctgaagtcc ggtccgcggc tatggctggt aacggccggc 11580 
gcgcaggcga ccagtgcggt gcacaatccc atgcaggccg cgctctgggg cttcggccgg 11640 
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gtgatcgcgc gcgagcaccc ggatctgtgg ggcgggctca tcgatctgga tcccgacgat 11700 
gcgcatgctt cggcggccgg cgcggccgcg cagatgcgtg atttcgacgg cgaagatcag 11760 
tcggcgtgga gaagcaaccg gcgctacgtg ccgcgactga cccgccgacc cagcgcgcga 11820 
gcggcagtcc gtctggtttc gggcgcgact tatttgatca ccggcgggct cggagccctg 11880 
ggacttacag tcgcgaaatg gatggtggag cacggcgcca ctcgcgtcgt gctggccggg 11940 
cgccggcctc caaacgagga gcagcagcgc gtgctgcaac agattggtgc gacggcagag 12000 
acggtcgacg tcagccggga agaagaggtc gcggatctca ttcgccgcat ccacaccgaa 12060 
acgtcaccgc tgcgcggcgt tatccatgcc gcgggtgtgc tggacgacgg cgtactgctg 12120 
aatcaggact ggacgcggat cgcaagcgtc atggcgccga aggcggaagg cgctgtacac 12180 
ctccatcatc acacccgcga tctgccgctc gacttcttcg tgctcttttc atcggcatcc 12240 
tcgctcttag gtcctgccgg gcaggcaggc tacgccgcgg ccaacgccgt tctcgatgcg 12300 
ctggcgcatc accggcgcgg actgggtttg ccggcgacca gcattaactg ggggcgctgg 12360 
tcgggagccg gaatggccgc gcgcaccagc cagtcgatgg ccggcgtggc gagcctctcc 12420 
gtggacgagg gtctacacat tctcgaggcc gtcctgcatg aatgccccat tcagattgcc 12480 
gcgctaccgg cgggctcgat taccggcgag ttgctgcgtc ccgccgcgct gccttcacct 12540 
caactgcgca cccgcttgaa cgaagccaca ccccggcagc gcgaagccat cctcattgcg 12600 
cacatcaggg agtcactggc gcgctttgtc ggcatcgcga cttccacacc gctcgatcca 12660 
cagcagcctt tgggtgaact gggactcgat tcgctaatgg ccatagaact tcgcaactcg 12720 
ctctcccaat cactggggca gcctttgccc gcgagtctgc tgttcgacta tccgtcgctc 12780 
gatgcgatcg tcagttacgt gctccatgcg gtatttccac ccgaagcatc accggtggaa 1284 0 
gcgccggagt ttgagaacct cgcccgcgaa gaactggaag cgctgctcga ttcgcggctg 12900 
gcgcaggtcg accagtggtt ggagacgcaa taaacatgag cgggtcagac gatctcagca 12960 
agcttcgccg cgccgtgatt gcgctcgaca aggtgcagaa acgcatcgac cagctggaga 13020 
gcgcgcgcag cgagcccatc gccctcatcg gcgcgggctg ccgcttcccc ggcgcatcca 13080 
atctcgatgc ctattggtcg ttgctgcgcg agggccgcag cgcggtacgt gaagttccac 13140 
ccgaccgctg ggacatcgat gcctactacg atccggatcc cggcgcgacg ggccgaatgt 13200 
acacgcggta cggcggcttc atcgatcagg ttgaccgttt tgacgcccgg ttcttcggca 13260 
tcgctccgcg cgaggcgatc agcctggatc cacagcagcg gctgcttctg gaagtcacct 13320 
gggaggcgat cgagaacgcc gggcttccac ccgaccggct ggcggggagc cggaccggcg 13380 
tcttcatggg gatcttttcc aacgattatt acaacctgca aatgcgcggc ggggatgcgc 13440 
atatcgacgc gtacaccggc acgggcaata cggccagcgt tgccgccggg cgtctctcgt 13500 
acatcctcgg gctgcagggc ccgaacatgg cgatcgacac ggcatgctcg tcatcgctgg 13560 
tcgcggtgca ccttgcctgt cagagcctgc gctcaggtga aagcgacctc gcgctggcgg 13620 
gcggcgtcaa tctgattctc tcgccggatc ggacgatcta cttctgcaag ctgaaggcga 13680 
tggcagccga cggtcgctgt aaggcattcg atgccgcagc agacggctac gtccgcggtg 13740 
agggctgcgg tgtggttgtg ctgaagcgac tctccgacgc gctgcgcgat cgcgatccgg 13800 
tgatggcggt gattcgcggc acggcaatca accaggacgg acgcagcaat ggactgacgg 13860 
cgccgaacgg gcccgcacag gaagccgtga tccgccaggc tgtgggagac gcgcgcttgc 13920 
agacgctgga tgtgagctat gtcgaggcgc acggaaccgg cacgccgctg ggcgatccca 13980 
tcgaagccgg agcccttgcg gccgcgctgg gagcggggcg caccaacggc aacaagctga 14040 
agctcgggtc ggtgaagacc aacttcggcc acctcgaggc ggcagcgggc gtggccgcac 14100 
tgatcaaggt ggcgctgatg ctgcagaacg aagccattcc gccccatctg aatctgacca 14160 
cgcccagccc gcacatcgat tggaacacgc ttcccctcga aatcccggca cggctcaccc 14220 
cctggccggt tgcacccggc gggcggcgcg tcgccggcat caactcgttc ggcttgagcg 14280 
gtacgaatgc gcacgtgctc atcgagcagg cgccgcaaca ggccgcgtcc agtacgcccg 14340 
caccgtacct gcttccgcta tcggcgcgca gtccggaggc gctgcgtgat ctggcgcgcg 14400 
cataccgcga cgtggtgaac gacaaccccg ccgacacctg ctacacggcg tgcgctcgcc 14460 
gcacttcata cgaacaccgc gcggcattca ccgggacgaa cgcgcaggac ttgatggccg 14520 
ggctggacag ttttctggcg ggcaacccga accgcgatac cgccacaggt tttgtgccgc 14580 
gcggccagaa gcgaaaagtc gttttcgttt tgccgggaca aggatcgcag tggcccggca 14640 
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tgggccgcga cctgatggct tctgaaccgg tgttccgtgc cgccatcgaa gagtgcggcc 14700 
gcgccatgca gccttacgtc gactggtcgc tgacgcaaga gttgcagggg ccgctcgacc 14760 
gcatcgacgt gattcaaccg gccctgttcg cagtcggggt cgccttggcc ggactgtggc 14820 
gccattgggg aatcgagccg gacgccgtga tcggccacag catgggcgaa gtcgcggcag 14880 
cgcacattgc aggtgcgctg actctcgatg aagccgctcg ggtgatttgc ctgcgcagcc 14940 
ggatgctcgc cggagtacgc ggccagggag aaatggctgt cgtggaatta gcgctggacg 15000 
aggccatcgc tgccatcgcc gggcgctcgg atcgggtctc gattgccgcc agcaacagcc 15060 
cgcgcagcac cgtcctgtcg ggcgacagcg cagctctggg cgaactgctg cgggaactgg 15120 
aggcgaaaga cgtcttctgc cgtcgcgtga aagtggacat tgcctcgcac agccatctga 15180 
tggactccgt gtgcgcggcg ttgccgggcg tggtgggagc gcttcagccg cggccggccg 15240 
cccttggcat gtactccacc gtcaccggcg cagcgattag cggtgaagag ctggtttctg 15300 
cgtactgggc tcgtaatctt cgccaacccg tgatgctgtc gacggccgtc gccgcagccg 15360 
cggcgggtgg tcatgatgtg tttctggaac tgagtcccca cccgttgttg gtccagccga 15420 
tccaggaaac gctcggagat cgggcagcga ttgccgctgc ctcgttgcgg cgcgatgaag 15480 
acggaaacct cgcactgcgc cggacgctgg gagcgctgct gactaacgga gtcactccgg 15540 
actggtctcg tatttatccc aacggcggcc aaactcgccg gctgcccaac tatccctggc 15600 
agcgtgagcg ttattggatc gatatccgtc cgccgcaggt cgagtctcag gctttgcctg 15660 
gccggcggat cccgtcgccg ctgccggaga tgcagttcga gtccactgtg gaggcgaaag 15720 
atttcgcgga tcaccggctg cacgatgtga tcgtgactcc gggagcgtgg cacctggcaa 15780 
tggcgctcgc cgctgcgcgc caaggtctcg gcgccgggcc tcaccatgtc gaacacgtgt 15840 
cattgacggg cgcgctgacg ctgccggaaa acgatgctgc caggcaggtt caactggtac 15900 
tccgtcatga agagggcggc ggagcttcct tccgcatcta cagccgcgag gattcctgga 15960 
agctgcacag cgaaggcatg ctgcaggcgg gcgattccac ggcatccatc gatctggatg 16020 
cgattcgcgc ccgctgcacg gcggagctca cagccgatgc cttctattcg cgactgtggg 16080 
atcgcggcta tcacttcggt cccaccttcc gaaccatcgg ccccatctgg cgcggcaacg 16140 
gtgaggtgct ttgtcgcgtg gacattccgc tgacggaaat gcagacgatc gactgctgtc 16200 
tgcagttgcc cgcggccctc gtccatcacg acgatttgaa agatgtgcat gtgccggtag 16260 
gtctggaccg attctcgctc gctgaagtgc ccactggccc ggtctgggga tacgcggtct 16320 
tgcggccgga ttccacggtg gatgtccgtc tcgtcaccgg caccggcagc gtggtggcgg 16380 
aattggtggg gctgcagtcg agagtcgccc atagcggcca gctcggcgaa tcggagattc 16440 
ccacctggac ggtgcaatgg accgcgtcgg ttcgccgcgg cgatgccaat gccggcaatg 16500 
ctggcggacc ttggctcgtc atcggcgagc cggcgattgc cgagactctg caaaagcgcg 16560 
gccaaacctg ccgcacggcc gatacgtgct cgggtccgcc gtgccgtcaa attgtgtact 16620 
gtccctcgcc gcgcatcgac gacctgcttt ccgtattgcg cagcatcgtg caagcgggct 16680 
ggcctgagcc gccgcgcctg tggctgctga cgcgcggatc tgccgcggtt ctcaactccg 16740 
acaaagatat tgatattcga caagcctggc tgcacggaat tgggcggacg attgcctatg 16800 
agcatcccga gctgcgctgc acgctcgtcg atctcgatgc gcacagcaac gactgcgggc 16860 
atctcgcgac gctgatgctg tcgaatatcg cagaggatca agttgcgatc cggcaaggca 16920 
cggtatgggc gccgcgcctc agtcttcaca agatcccatc cgcacccgat gtggcgttcc 16980 
gtgccgacgc aacctatctg atcacgggcg ggctcggcgg actcggactg caggtggcgg 17040 
gatggctcgc cgccgccgga gcgcgccatc tcgttctgct gggacgcagc gagcgtcctc 17100 
ggccacaact ggaaggtgtc aacgtcaaga tcatccatgc ggacgtggcg gaccggcagc 17160 
agctatcgga tgcgctcgcg atcatcgatc gcgacatgcc gccgttgcgg ggcgtgttcc 17220 
atctggcagg cacgctggcc gacggcatgc tgctcaatct cacgaccgaa cgcttcgaag 17280 
ccgccatggc tccgaaagta gccggcgcgt ggaacctgca cgaactcacc gccggccggc 17340 
cgctggatca ttttgttctc ttctcttccg ccagcgcgac agtgggatct cccggccagg 17400 
gcaactacgc cgccggcaat tcatttctcg acgcgctggc tcatctgcgc cgcgcccagg 17460 
gtcttcccgc cgtcagcatc gcgtggggac cgtggacaca ggttggtttg gccgcacagg 17520 
cgaaccgcgg agaccgtctg gccgcgcgcg gcatctcggt tattcaaccg caacagggat 17580 
tgcgcgcgct ctacaaagca ttgacgcaga ttcggccgca cgtcgctgtc atgaacttcg 17640 
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atatcgcgca gtggctccgt tactatccgt cggccgcatc gatgtccctg ctggccggca 17700 
tcgcacccgc ggccgcggac accaaaccgg cggccgacat gcgcagcgag ctcctggcag 17760 
ttccagccgg gcggcagcgc cgcgcgcggc tggaaacgct gctgatgcac gaagccggac 17820 
acgtgctgcg cttcgatcca gcgaaactcg acggcagagc gacgctgggt gatctcggat 17880 
tcgattcgtt gatggccctc gagtttcgca accgtctgga agccgggctg cgcgtcaagc 17940 
tttctgccac cctgatctgg cgttacccga cattctccgc cctggcgcag catctcgccg 18000 
acaagctcgg cctgccgctg gaaagcatgg ccggcaatgc tgaaccttcg accgttgctg 18060 
ccgttgctac ccttgctacc gttggcaccg ccgcgggcga ggaccggagt cccgccgctg 18120 
cagacgatct cgacgccgtc gcaaaccaga tcgccgggtt gggggacaaa gaaatcgaag 18180 
ctttgttgaa acagaagttc gctcattttt caggagcctc cgagtgagtt cgatatccga 18240 
gcgattcccc aaccttacgc cgttgcagca ggcgtacctg acgctggagc acatgcagcg 18300 
acgtctcgat gcggccgaac gcgacgcgcg cgaacccatc gcgatcgtgg gtctgggctg 18360 
ccggtttccg ggcggcgatg ggcccgatga gttctggcag atgttgcgca gtggagtcga 18420 
tgctattcgt gaggtaccgc ctggacgatg ggacgaggag tcggtccggc gcatcctgaa 18480 
atcgttgaac cccgccacgc cggtgaagat tcaagccgga tttctcgatt ccatcgatgg 18540 
tttcgacaac gattttttcg gcatttcgcc acgcgaggcc gtcagcattg atccgcagca 18600 
gcggctgctg ttggaagtgg cgtgggaggc actggaggat gcggggcaga cgatggaagg 18660 
gctctccggc agccgcacgg gcgtcttcgt cgggatccac agccaaagca gcgactattt 18720 
ctggatgcag accgccgatg gcgcgcgcat cgatccgtat accgccaccg gcacggcgca 18780 
tagcgtgatc gccggccgac tttcctattt gctgaacttg caaggaccca gcatcgcgct 18840 
cgacacggcc tgctcgtctt cgctggcggc ggttcatctg gcgtgccaga gcctgcgcag 18900 
cggcgagtgt acgctggccg tggccggcgg agtgaatctg cgcttctcgc cggagtttat 18960 
gtacgccacc tcgaagatgg gaaccgcctc gcccagcggt cgctgccgcg ccttcgacgc 19020 
ggcggcggac ggcatcgtgt tcggagaagg ctgcggcgtg gtggtgctga agcgcctgtc 19080 
cgatgcactc gcggccggag accgggtgtg ggccgtggtg cgcggctccg cggtcaatca 19140 
ggatggccgc tcggccgggc tcaccgctcc caatgtcgtg tctcagcagg tcgtcatccg 19200 
gtcggcattg gccaatgcgg gcgtcgcggc gcagcagatc ggttacatcg aagcccatgg 19260 
cacggggact ccgctcggcg atcccatcga gatcgaggcg ctggcggaaa ccgtcggcct 19320 
cccgcgacct gtcggcgatg tgtgcgcggt cgggtccctg aaatcgaaca tcggccacct 19380 
ggagggagcg gcaggcatag cgggattgat taaagcggtg ctcgcattga gtcacgagac 19440 
gataccgccg agcttacacg tgagacagct gaacccgaat atccggttgg agggaacgtc 19500 
gctcgacatt gtgaaggaag tccggccgtg gcccgcgggt tcgagacgaa ggtttgcggg 19560 
cgtcagcgcg tttggttggt ccggcacgaa cgcgcatgtc gttcttgaag aagcggcgcc 19620 
gactggtaga ggcgaagctg cgagcgggtt ccattcccga ccccccgccg ccgctgcgcg 19680 
ggcggctgtc cccctcgcgg agggggacac tgggggcact cccgacattg caggcactcc 19740 
cgacactgca gacactcccg acactgcaga cactcccgac attgcaggga ctgcaggcac 19800 
tgcggcaact acgggcattg cagacgcgat gtatgtgctt ccgctgtccg cgcatggtgc 19860 
ggacgaactg cgtcgggtgg cgcgggcata cggggaattg ctgacagcgt cgcacgcacc 19920 
gagcctgcgt gatctttgct acacggccgc agtccgccgc acgcatcacc gatgccggct 19980 
cgctgtttcc ggcagaacgg ctgaagaact ggcggcgcag ctccagggga tcacgatccc 20040 
ttcccagcga cggaagacgg tattcgtctt ctcgggacag ggatcgcaat ggatcggaat 20100 
ggggcgcagc tggatggacc gcgaacccgt tattcgcgag gcgttggaac gctgcgaggc 20160 
cgccatgcgg ccttatgtgg actggtcgct gaaagaagaa ctggcgaagc tcgaccgcgt 20220 
cgaggtcatt cagcctgcgc tcttcgcgct gcaggtcgcc atcgccgcat tgtggcgttc 20280 
ctggggaatc gagccggatg ccgtcatcgg gcacagcatg ggagaggtcg ccgccgctca 20340 
tgtcgcgggt gcgctgacgc tgcaggatgc ggcgcggatc atttgcagcc gcagccggct 20400 
gttgagccgg atcagcggcc tgggcgggat ggcgatggtg gagctgccgc tcgcggaatg 20460 
tgaggccgtg ctgtcgactt acacggaacg actatcgccc gcggtgtcga acggacccaa 20520 
ctccaccgtc atctccggtg aagtcgaagc cctggccgag gtcgtcgcga cgctggagcg 20580 . 
gcgaggcgtg tcttgccggc cggtgaaagt ggacttcgcc gcgcatagcc cgcaagtgga 20640 
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cccattgtgc gacgaactcc tgcagtcgct cgacgggatt caaccgcggc ccgcgaccat 20700 
acctttttac tccacggtga ccggcgcgac gctggagacc accagcctcg acagcacgta 20760 
ctgggctcgc aatctgcgat cgccggttct gttctggcag ggcatccgcc atcttgccga 20820 
cagcgggcac gatgtctttc tcgagatcag ccctcatccc atcctgctgc ccgccatcgg 20880 
cggcaatgcg gcgctggttc cgtctctgcg ccgcgaccag gacgaacgcg gttccatgct 20940 
cacgtcgctg ggcgccctct atgaggctgg gcacactgtc gcatggcgga ccgtgtaccc 21000 
ttccggcaat tgcgtgcgcc tgccccggta tccctggcag cgtcgtcgtt tctggctcga 21060 
cgcttccccc gcgcgacacg cgatcacgtt gggcaatccg ctgttgggaa aacgcgtcga 21120 
agcctcgacg caacccggca ctttcttctg ggagacggaa ctcagtctcg cttccgtgcc 21180 
ttggctggca gaccatcgcg tgcagggcga agtcgtcttg ccggctactg cgtatctcga 21240 
tatggctctg gccggaactt ccgagacctt cggtgaaagt ccgtgcgtgc tggagcatgt 21300 
gactttcaca cagatgctca ttgtgccgcg cgacggcagc atgacgttgc agctggccat 21360 
cgcggtcgat agacccggga tggcgtcgtt tcggatttcc agccggcagg catcgacatg 21420 
ggtcctgcat gcttccgggg acattcgtca gacgcctgcg gatgcatcga ccgtcccgcc 21480 
ggattctgcg gagacggtgc aggcccgctg ccccacagtg gtgccggcgg cggagctgtg 21540 
gcgtcagatg gcggagcacg gcgtcgagta tggtccggct ttccgcgcgc tcgagcagat 21600 
ctggagttgt ccaggtgagg cgatcgggcg tctgcgtagc tcggaaacgc gttccactgc 21660 
gccggcgttc ctcgatgcat gtctgcagat catcgccgcg gcgtttggtc ccgccggtgg 21720 
aacctggctg cccgccggca tcgaccggat gcgctggctg catcccgcac gttccgtggt 21780 
gtggacgcat gcgcggctgg aaggacctat cgccgatctg tcgctgctgg acggagaggg 21840 
acaactggtc gcccgcatcg agggtctgcg gctgcagcgc ctggatgcgt cggagcgcat 21900 
cgacatgcgc ggctggttgc acgaactgcg ctgggtcgct cagccgcacg ccgctgcaga 21960 
gccgccggcg gcgcgagcgg cgcggtcatg gctcattgtc ggcgctgtgg atagcgcgct 22020 
caccgcatgg ctgcgcgcta ccggcaaccg cgtgacgcag acctcgccgg aaaagctcga 22080 
tgaactccag ccgccgctcg aggaaatcgt gtttttgctc gagcacgaac cctcatgcga 22140 
ccgcattctg catctcctcc agaccctggg gcgcacgccc tggcgtcaag caccgcgcct 22200 
atggctggtc acgcgcggcg cgcagccggt cgatggacag atcctgcaag ccggtatcgc 22260 
tcaggcgcct ttctggggtt tgggccggac cgtgcattac gaacatccgg aactgaactg 22320 
cacgctgatc gatctcgatc ccgccggcgg cgaagaggaa ctcctgcacg aactgctgac 22380 
gaacaacggc gagaatcaaa tcgcctctcg cggcggcgcg cgttacgtcg cgcgcgtggc 22440 
tcggcacgaa gcggatatgc aacccgccat gttcaaggcc ggcgatcggc cgttccggct 22500 
cgagatcgat gcccccggag tcctcgaccg gctgcgcttg cgggccacat cgcgccgccc 22560 
cccgcaagcc ggtgaagtgg agattgaagt ctgcgccgcg ggcctgaact tcctcgacgt 22620 
tctgctcgcc ctcggcgtta tgcccgacga tgcgcccggc gcgattgccg gcagcccgcg 22680 
cctgggcggc gaatgctcgg gccgtatcgt ggccatgggg aaaggcgtca ccgactttcg 22740 
catcggagat gaagtcgtgg cccttgcgcc ttgcagtttc ggtcgcttcg tcaccacgcc 22800 
cgccttccgc gttgccttga agccggccaa cattcccgcc gaacaggccg ccgccctgcc 22860 
tatcgcgttt ctcaccgccg attacgcgct ctcgcgagcg gcgcggctgg cgcccggcga 22920 
acgagtcctg attcacgctg ccaccggcgg tgtgggattg gcggcaatcc agatcgcaca 22980 
gcgtgcgggc gcggagatct tcgctactgc cgggagtccg gaaaaacgag cgtatctgcg 23040 
ctcgctgggc atcgcgcatg tttcggattc gcgctcgatg gctttcgtgg acgacatccg 23100 
caattggacg aatcaagaag gagtagacgt cgtcctgaat tcgctttccg gcgatctgct 23160 
ggaggcgagc ttcgatctgc tgcgcgatca tggacggttc atcgagatcg gcaagcgcga 23220 
ttactatgcc ggccgcaagc tggggcttcg cccgttcctg aagaacctct cgtacacgct 23280 
ggtcgatttg ctcggcatgt ccctgaagcg cccggcattg acccgggagc tgctgcagga 23340 
gatggtcgca aaattcgaat cggaaacctg gcggcccctg gaaacgcgag tgacgaccat 23400 
caccgaatcg gtggaggcgt ttcgcaccat ggcgcaggcg cggcacatcg gcaaaatcgt 23460 
catggcgatg cgagattgcg ccaatgcgcc catcgcaccc ctacgctcgg cgttcgatag 23520 
cgagggaacc tacttgatta ccggcggact tggcgggctc ggtcttaccg tcgcacgctg 23580 
gatgatcgga cgcggcgccc ggcggctggt gctgctgagc cgccgcgcgc cttcacccga 23640 
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ggtccagcaa gccatcgccg tcatggacgc agatgtccgg acggtgcagg ccgatgtttc 23700 
tcagcgcgat gaactcgagc gcgtgatctc ttccatcgat cgattgcgcg gcgtgattca 23760 
tgccgcagcc gttctcgacg atgcgctgct actgaaccag acggaagcgc atttccgcaa 23820 
cgtgatggcc gcgaaaatcg acggtgcctg gaacctgcac ttgctcaccc gcgactgccc 23880 
gctcgatcat ttcgtgctct tctcctccgc tgcaggactg ctgggcgcgc ccgcccaggg 23940 
aaactacgcg gccgcgaacg cctttcttga cgcgctggcc tactaccgga aggcccaagg 24000 
cctgccggcg ctgagcatcg gttggggtgc gtggtcggag gtcgggctgg ctgccgcgca 24060 
ggacaatcgc ggatcgcggc tggctttgcg cggcatggaa aacctgacgc cgcaacacgg 24120 
cctcgctatt ctggaacagc tgctgaacag ctcggcttgc cacgtcgccg cgatgcccat 24180 
caatgtccgc cagtggcggc agttctatcc caaggcggcg cagtctgcac tgttcgagct 24240 
tttgcatgac gacgcggcga gcgaagccga tgcgccaaac gcgttgcgcg cgcggctgca 24300 
atcggccgag cctcagaccc gcaggacatt gctcgaagaa catctacagc agcagctggc 24360 
gcgcgtgctg cgcatcgact ctcaaactat cgatcccctg cgcccgctga aggaactcgg 24420 
cttcgattcc ctcatggccc tggagtttcg caaccgtctc gaactcacac tgggtctcac 24480 
gctccccgcg accctgattt ggggtcatcc cacgctggcc ggtcttgccc cgcacctggc 24540 
gtcgcaaatg ggactgccgc tggtcgaagc gcaggccgcg gctgctgcgg aaggagacag 24600 
ccgcgccatg aaaactgcac tcagcgggtt ggacgacatg tcggaagaag cagccgtggc 24660 
tgcgctccga ggagcaaggt cgtgagggaa aaaattgcgc ccatgtcgtc ggtcaaactc 24720 
gcgctattgg cgcggaacat gcggcaaaac atcgcaggct tcgacctggt tcacgccgaa 24780 
cccatcgcca tcgtcggcat ggcgtgtcgt tttccgggcg gcgcgaagaa tccggacgcc 24840 
ttctggacgc tgttgaagaa cggtgtcgac ggtgtcaccg aggtgccgcc agaccgctgg 24900 
aactcggacc agtactactc ctccgatccc gatgctccgg gcaaggcgta tgcgcgatat 24960 
gccgccttcc tcgaacgcat tgacggtttc gatgcggaat tcttcggcat ctccccccgc 25020 
gaagctctga acatggatcc gcagcagcgg ctgctgctgg aagtgtgctg ggaagcggca 25080 
gaggacgccg gcatctctcc cggccctctg gcgggcagcg cgaccggcgt ctttgccggc 25140 
tcctgcgccc aggacttcgg actgtttcag tacgccgacc ctgcccgcat cggagcttgg 25200 
tcgggttccg gcgtggcgca tagcatgttg gccaatcgca tctcctatct gctcgacctg 25260 
cgcggtccga gcatggcggt cgatacggcc tgctcctccg cgctcgtcgc cgtccatctg 25320 
gcttgccaaa gcctgcgccg gcgcgaatgc gatgcggcat tcgccggcgg agtgaacttg 25380 
atcctgactc ccgagggcat gatcgctttg tcgaaggctc gcatgttggc gcccgacgga 25440 
cgctgcaaga cgttcgacgc cgcagccgac ggttatgtgc gcggcgaggg ctgcggcatc 25500 
gtgctgctga agcggctctc cgatgcgctg gccgatggcg atgccatccg tgcagtcatc 25560 
cgcggctcgg caatcaatca ggacggacgg agcaatggca tcacggcgcc gaatctgcag 25620 
gcgcagaagg cggtcctgca agaggcggtg gccaacgcgc acatcgatcc atcccacgta 25680 
tcgttgatcg aggcgcatgg cacgggcacg tcgctgggcg atcctatcga gatcgaggcc 25740 
ctgcagtcgg tctacgacgc gccggactct gcgccttgtc tgctgggttc cgtaaagacc 25800 
aacatcgggc atctggaggg cgcggcggga atcgccgggc tgatcaaagc cgtactcgcc 25860 
ctgcagcatc gcaccattcc tccgcacctg cattttcgcc ggctgaatcc gaacatctca 25920 
ctggacggca gccggtttcg catcgccacg gaatcgtcgc cgtggacgtc ggaaggacgg 25980 
ccgcgtctgg ccggcgtcag ctcgttcggt tttggaggga gcaacgcgca cgtcatcctc 26040 
gaagaggcgc ctgcactccc tttgccgaag ccggtcacac gcccgcagct tctcactctg 26100 
tcggcgcgca ccgacgaagc gctcggcgaa ctggccggcc acttcgcgga gttcctgcag 26160 
tcgcacccga atgcgttgct gtccgacgtt tgcttcacca gtcaggttgg gcgcgacgca 26220 
tatagtcacc gcttggcgat caccgccgca gatgcggcag aggctgtagc ggcattggcc 26280 
gcggcgccgc ggcgcgaagt atcgttgcgc cggcggccgg caatcgcttt tctcttcacc 26340 
ggccagggcg cgcagtacgc cggcatgggc gcagagcttt ataaaacgca gcctgttttt 26400 
cgcgacgcgc tcgatcgttg cgccgattgg ctccgtcccc agctcgatgt tccgctgacc 26460 
gttctcttgt tcgagtcggt ttcgccgttg cacgagacgg cgtataccca gccggcaatg 26520 
tttgccctgg aatgggctct ggctcagttc tggctgtcgc tcggcgtccg gccggactac 26580 
gtgctgggcc acagtctcgg cgagtatgtt gcggcgtgtg tggccggcgc ctttagcgtg 26640 
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gaggacggcc tgcggctggt gaccgccagg gggcggctgg tcaatgcgct tccccgcggc 26700 
aaagcggtca tcgttcacgc caatccgagc cgcatcgcgg cgctcgccgc caaggtggca 26760 
gtcgccgcat cgaatgcgcc ggaccgcacc gtgatctccg gcacggctgc agaaatcgcg 26820 
gaagcgcaag atgacctgca tcgcgccggc gtggaaacgc gagagctgaa cgtatcgcat 26880 
gcgttccatt cgccgctgat ggatccgatt ttggacaagt tcgaagcgct tgcaggtgcg 26940 
atcgcgtatc agccgctggc gatcccgctg gtgtcgaacg tcagcggagc cgtattgccg 27000 
aaaggcacga cactcgacgc ccgctactgg cggcgacagt tgcgcgaaac cgtgcagttt 27060 
gaaagcgcga tgcgaaccct ggcggaccgc gagtgcaagc tgtttctgga aatcggcccg 27120 
catcccacgc tcaccacgct ggggcgatat tgtctgcccg atgacggcgc ggtctggctg 27180 
cactccctat ctaagggacg atcggattgg tccgtgctgc tggaaagtct tggcggcctg 27240 
tttaccgcgg gcgtgaatcc cgactggcgc ggtctctatg ccggggaatc acccagccgc 27300 
gtcgcgctgc cgacgtatcc gtttcagcgt gacaccttca gcctgagacg cgtacccgcg 27360 
agagagccgg cgcgcggcgg catgttggga gcgcgcctca acagcgcgtt gggcgatgtc 27420 
atcttcgaaa attcgctaac cacggagacg cctctgctcc atgagcacgt gatctacgac 27480 
gcggtcattg tgcccggcgc ctggcacgtg tcggcatttc tcgaagcggc acaggaagtc 27540 
ttcggtccgg ttccctgcgc cgtctccgat gtcatgatgc ggcaggcact ggccatcccg 27600 
ccggatacgc cggtcacggt gcaagcgatt gtcacacccg gcgaggacgg cgaagcaaag 27660 
gtgcaggtct tcagccagga tggcgattcg tggaagctcc acacggcagc cagtctgcgc 27720 
gcggcgactg ccggcgccgt tcatttcgag ctgccggcgc agccttccga agtcatttcc 27780 
ggcgatgcgt tctacggcgc gatgaacgca cgcggcgtcg atcttggccc cgccttcagt 27840 
tgggtggaag aagtctggcg tcgcgatggc gaggcgctgg ggcgaatgcg tctgccggtg 27900 
gctgaggatg gcgcgaacgc ttaccggctg caccccggcc tgatcgattc ttgttttcaa 27960 
gtattcggag cgacttggcc cgcggagcgt tgccagcccg gcgcatacgt gccggtcggg 28020 
atcgaagcgg tgcgcttcta ccgtccgccg gcaggttctc tgcgctgtca tgcgcgtctg 28080 
cgcccgagct cgagcggccc gttcgtcggt gatctgacgc tggttgaaga gaccggcgcg 28140 
gtcatcgccg agttttccgg actggctgta atgcatgccg gtacgctgca atccgcacag 28200 
tcgtggctgc aggatgtgca gtggcaggag tgcgagcgat cgacaacgtt gaagtccgac 28260 
ggccctggca agccggagga ctggttgctg tgtgccggcg cagacgatgt cgccggtttg 28320 
atgccgcaag agctgcgcgt cgtgtccggc gtcactctcc gccaggcgct ggaacagacc 28380 
cagactttgg tcggccgccc ggcgcggctc tggctgatca cgcgcggcgt gcatcgcatc 28440 
agtgatgacg atgcgactcc cgtcgatcct ttccaggctc cactgtgggg actcgggcag 28500 
gcgatcgcgc gcgagcatcc cgagctgtgg ggcggcctga tcgacctcgg ttgcgacaat 28560 
gccgacatcg ccgccgccat gctgctggat gaaatccgtt atgccggcga cgacaaagcg 28620 
atcgcattgc gcaacggacg ccgctacgtt cgccggctgg tgcggcacaa ggaaacgtcg 28680 
aagcggccgc ctgccatttc agccgacggc gtctatctga tcaccggegg tctcggcgca 2874 0 
ttaggacgaa gggtggcacg ccgcttgatc gagcaaggcg cgcgccgtct ggtactggtc 28800 
ggccggcata cggaggcagt tgccgatctc gagcaactcg gggctgcagt catggttgct 28860 
gcttgcgatg tgagttccga gcaacagctg gcggcgctgc tggcggaccc gcgcacccag 28920 
ccgctgcgtg gagtcgtgca tgccgcaggc gtgctcgatg acggggtagt tacagaacag 28980 
acgtgggctc gtttcgagaa ggtgctggcg ccgaagctgc agggtgcctg gaatcttcac 29040 
cagctcactc gccaccatgc gctcgacttt ttcgtactct tctcttccgc cgcttcgctg 29100 
ctcggttccg ccggacagag caattactcg gcggccaacg catttctcga cagccttgcc 29160 
cacatgcgcc gcgcgcaagg actaccggcg ctgagcatca attggggacc atgggcgggc 29220 
gaaggcatgg ccgcgcgcat cgcgcggcaa ggcctgccgg gggtaccgct gctgccgccg 29280 
gaagtgggtg cgcgcatctt cggcgatctg ctgggcgaga ctgccgctca gatcgcggtg 29340 
ttccaagtct ccgccgaaaa aaggcggagc ccggcgagcg atcccggctt catccagcaa 29400 
ctcaccgaag ctgcgccgga gcggcggcag gaactgctgc agatgcgcat ccgcaagcag 29460 
gccggcggcg tgctggcgct cgatgcgtcc aagacgctcg acccgcgccg gccgctcaag 29520 
gaatacggac tcgattcgct gatggcgctg gatctggcgc gcgccatcgg agagctggtg 29580 
cgcaagagcc ttcccgcgac attgctatac gaccatccga ccgtcgagaa attggccggc 29640 
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catgtcctcc gcgaactcgg actcgacgtc 
cagctgtccg agcaggagat ggcggcgttc 
gaacgatgag cgatctcact cctcttcaac 
cgcgtctcga cgaactggag agcgtccaca 
gccgctttcc cggcgcggac tcgccggaag 
atgccatccg cgaaattcct gcgggccgtt 
ccaacgcgcc gggaaagatg tacacgcgtc 
gcttcgacgc cggcttcttc ggaatcacgc 
agcgcctgct gctcgaggtg gcatgggaag 
gtctcgcggg cagcgacacc ggagtgttca 
tgaaacctac cgatccggcg ctcattgacg 
ctgccgccgg acggatctcc tatctgctgg 
cggcgtgctc ttcctcactc gtggcggttc 
agtgcagcat ggcgctggcc ggcggcgtga 
acttctgccg cctgcgggcc atggcggccg 
ccgacggtta cggccgcggc gagggatgcg 
cgacgcgtga cggcgatcgt attctggcgc 
gccgcagcaa cggcctcacg gcgccgaacg 
cgctcaagaa cgccggcatg gcccccgccg 
ggacgccgct gggagatccc atcgaactgc 
gtgccgtcga ttctccgttg atcgtcgggt 
cggcggcagg tatcgccggc ctgatcaaga 
cgccccatct gcatttcaac gcgcccaacc 
agatagccac cgcatgttcg ccatggccct 
gctcgttcgg aatcagtggc accaattcgc 
tagaagcgaa gacgaatgta gaggcgaaga 
tcaaggcgag tgtagaggcc aaagggaatg 
tcctcgaggg ggacagccgc ccgcgaagcg 
gcgaggaagt gccggtcccg gatcaactcc 
cgctttcggc gcgccatccg caggctctgc 
gctttcacgc tccgctctcc gcgctgtgtt 
aacatcgcgc agcgtttgtg gcctcatccc 
tccggcgcaa tgaaaccaat cgcggcgtcg 
cgaaactcgc cttcatcttt tccggccagg 
tgtattccga cgagcctgtc ttccgatcgg 
gcttcgtgga atggcggctt gcggacctgc 
agatcgatcg cgtgcagcct gcgctgttcg 
aatcctgggg aattcgcccg gacggcgtgg 
cccatgtcgc aggcattctc accctggagg 
ggctgttgct cggacttcgc ggccggggag 
gggcgaaggc cgtgctcgct gaacgcggtc 
gaccacgcag cacggtgttc tcgggagacc 
tcgagaggcg cggcgtcttc tgccggctga 
aggtggaccc gctcgagaac gaattgcgcc 
ccgccgtgcc gttcttctcc acggttgaag 
cgtcgtactg ggtagccaat ctgcgacagc 
tggctggtga tgagttcacg cagttcctgg 
cgatcgagga tagtctgcgg acgctcggca 
gcgacgaacc ggagcggcgt gagctgctcg 
agcgtccgga ctggcgcgcg ctcgcttcgt 



cccagcgatt ccctcgtcga tgaagtgcgg 29700 
atcacggaaa ccttgcacca tctgggagag 29760 
aggcggtcct ggcgctcaag cgcacgcgag 29820 
acgaacccat cgcgatcgtc ggcatggctt 29880 
cattttggca gctcctgcac gatggcatcg 29940 
gggatgccga tgcgttttac gatcccgatc 30000 
tgggcggatt cctcgatggt gccgtcgacg 30060 
cgcgcgaggt cgccggtctg gatccgcagc 30120 
ctttggagcg tgcgggtcgg ccgcccgaca 30180 
tcgggatcag caccgacgac tacagccggc 30240 
cctataccgg taccggaacc gcgttcagca 30300 
ggttgcaggg accgaacttc cccgtcgaca 30360 
atctggcgtg ccgcagcttg cagtcgcgag 30420 
acctgattct ggcgccggaa agcacgatct 30480 
atggccgttg caaaagtttc gctgcctccg 30540 
gaatgctggt gctgaagcgg ctgtccgatg 30600 
tgattcgcgg atcggccgtc aaccacggcg 30660 
gtccggcgca ggaagccgtg attcgggcgg 30720 
atgtcgatta cgtggaagcc cacggaaccg 30780 
gggcgatggc agcggtgctg ggcgaggggc 30840 
cggtgaaaac caacttcggc cacctggagg 30900 
ccattctcgc cctgcagcac cgagagattc 30960 
cgcacgtact ctggaatgag ctgccgctaa 31020 
ccaacggccg cccccgagtt gccggggtga 31080 
acgtcgtcct cgcagaagcg aagacgaatg 31140 
cgaatgtaga ggcgaagacg agtgaagagg 31200 
tggaggctaa ggctagtgct agtgtccccc 31260 
gcggcggggg gtcgggccgg ccgcccagcc 31320 
atgccgaaga cggccgcgaa tacctcctac 31380 
gcgatctcgc cggcgcctat cgcgatgggc 31440 
ccgccgccag cctgacgcgc agtcactacg 31500 
tgcccgagtt caatcaattg ctcgaggcct 31560 
ccaccggttt cgccgatccc ggagttcgtc 31620 
gcggacagta cccgcgcatg gcgtatcgcc 31680 
cgatcgaacg ttgcgacgcc gccttccgca 31740 
tcgccgacga gtcgggagca tggctgagcc 31800 
ccgttcaaat cgcgctggtc gaactgctgc 31860 
ccggacacag catgggagaa gtggcggcgg 31920 
acgcggcccg catcatctgt cgccgcagcc 31980 
cgatggctct ggtcgaactg ccgctcgatc 32040 
tcactactgt ttctgtcgcg gccagcaacg 32100 
gtgtggctct cgagcatttg aaggacgact 32160 
ttcaggtgga tgtcgcttca cacagctcgc 32220 
aggaactcgg ccgcgttatt gcaaaacgtt 32280 
gacagttgag cacgggcgag gcgtgcgacg 32340 
cagtccgttt ctgggagtcg ttgcaggcga 32400 
agatcagtcc gcatcctgtg ctgacgccgt 32460 
taaacggact ggttcgcccc gtactgcgcc 32520 
agttgctcgc cgcgctctac gtgaatgggc 32580 
ctcccgacac gcgcctggat ctgccgacgt 32640 
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atccctggca gcgcgagcgc ttctggttcg cgacctcgac gcggcgaagt ttgccggcag 32700 
ttggcggtca tccgctgctc ggtcgcaagg tcgagattgc gctggcgccg gacacacacg 32760 
tctgggagtc cgtgctctct ctggatgcgc tgccgtttct cgccgatcac cggctcaacg 32820 
agcttgtggt gcttcccggt gccgcttatg tggagatggc gctggccgca gccaaggaag 32880 
tgttcgcggg tggctgcagc ctggaagaga tccggtttga acaaatgctg gttgttcctt 32940 
ccgcgggcgc ctcgcgagtg caggtcatac tcgagggaca cgcattccgc atctccagtc 33000 
tggccgaagg cggttccgat tggaccgagc acgcgcgcgg caccatggct gcggcgccgg 33060 
acaaggtcgc gcccacggtg agcctgccca cacttgggga tcgcatcgag ggcgatgact 33120 
tctatgcggc cttcgcatcg caggggatgc attacggcga caccttccgc ggcatcgcgg 33180 
aagtgtggcg gcgcgacggc gaggcagtgg cgcgactgag cgtgccggat gccgttcgcg 33240 
aagcagagtc cggttacacg cttcatcctg ccttgctcga tgcctgtttg caggtgctgg 33300 
gcgcgacgct tggcggcgaa ggcagcgccg gtccttgcgt gcctgtcgcc atcgaacggt 33360 
tgcactgttt cggcagaccc gccggcgatc ttagggtgca tgcgcggctg acggggcggc 33420 
tcgagggcga tgtcaccctg tgtgatgcgg aaggccacgt catcctcgag gtccaaggcc 33480 
tgcgtgccca ggaactggag cgccaatccg aatggttcca cgctatggaa tgggagccgc 33540 
agctgctggc cgagagtcca acggcaacgg tgtcgggtgc atggctggtc attgccgatg 33600 
ccggcggcat cgcagccgcg gtggcgcgag ggctgggcac aaacacggtt gtgatttcgg 33660 
gtcgcgatgc cgagataccg gatcagcctt accggggcgt cattcactgc gggagcctgg 33720 
atgagaccga ggatgagacc gatccgtcgg ctgcgggggg aaccgcctgc gaagacattt 33780 
tgcgcatcgt tcaagaattc ggagtgggac gcatacagct gacgaaacaa gcgtccgacg 33840 
ccgaatcgca gcatccgcga atctggctga ttacggcggg cgttcatgcg gagcatctgc 33900 
agatgccggt ggtgcccgcg cgggcaccgg tgtggggtct gggacgtacc atcgcggccg 33960 
agcatcccga gttcgcttgc acctgcatcg atctcgacac tgccggtgaa gtcgaggtgc 34020 
aggcgctctg ccgagagatt ctcgcgggga gttctgaacg tcagggcccg g 34071 



<210> 115 
<211> 4615 
<212> ADN ■ 
<213> bacterie 

<400> 115 

actgcagtgc ccggaatcgg cggtggactt acagcagccg ctggtgcgta tgggattgga 60 
ctcgctcatg gcggtgcaat tacgcaaccg gatcgatacg gatctgcgcg tcttgctgcc 120 
catggtccga tttctagacg gccccagcgt tgcggaactg gccagggatc taagcgatct 180 
aagcggcctc agcgaacgca cgacggtggc gccggaacct gcggcgcagg cctcggttcc 240 
tgccctctcc taccctctca gcgccggcca gcaggcgctt tggtttattt accgaagcgc 300 
gccggaaagt cccgcataca acatcgcgtg gatcgcgcgc gcgagaggcg ctttcgatcc 360 
gcaggcgttg cgccgttcgc tgcaggacct ggtggatcgt catccggcgc tgcgaacgac 420 
gattgcggag agtggcggcg cacccgttca aacggtccac agcagcgtcc cggtggattt 480 
cgaagtgatc ccgtgttcgc cggacgatga ggcggtgctg atcgacggcg tcttccacgc 54 0 
gcccttcaat ctcggcgaaa actgtttccg ctcgcgtctc ctggtgcagt cggggaagga 600 
tcaggttctg gccatcgtgg tgcatcacat cctcgccgac ttctggtcac tgctggtgat 660 
ggtggatgaa ctccgcagta tctacctcgc gaggacagct ggcggtccgc ctgtcgcgcc 720 
gccggtcgcg agcttcgccg ctttcgtccg ctggcagaac gaactgttgg ccggaaccga 780 
gggcgagcgg ctttggaact actggtcctc gcagctttcc ggccagcttc cggttctgaa 840 
tctcccgtcg gatcgtccca gtccgccggt gcagagtttc cggggaaact ctcactcgtt 900 
ccgaatcgaa cccgcgctga ctgcgaaact gaaggcgctc gcgcggcggc agaacgcgac 960 
gctgcatgcg acgctgatgg cggcgtttca agtgcttctc tcccgttgga cctcacaaga 1020 
agagatcctg accggcaccc tcaccaacgg tcggacgcaa ccggaattcg ccgatctcgt 1080 
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cggatacttc gtgaatcccg taatcctgcg aggagaactt tcaggcgatc cggatttcaa 1140 
tacggtgctc gcccggattc ggcaaacgct tctcggcgcg atcgagcacc aggagtaccc 1200 
gtatgcccgg atcgtggagc ggttgggtcc cggactgcgg gttctattcg tgctccagca 1260 
gcctcatcgc attcccgaat ccgtgccgtt catgttgggt cagtccggcg gtcgcatggc 1320 
ctggggcagc ctcacactgg agtccctggc gatgccgctg cgacagagcc ggtttgacct 1380 
ggatctgatg atggtcgaaa ccgatggagg cctctccgcc tttctgcaat acaacacgga 1440 
catttttgat gctgccacga ttgaacgtct ctccttgcac ttcgccgtgc tgctggaagg 1500 
aatcgcggag aatcccgcct gtccagttgt cgatctaccg ctgctgacaa cccgggaacg 1560 
catccagctg ctcgaagagt ggaatgcgac cgccgcggaa ttcccgtccc aatgcgtgca 1620 
cgagctgttc gaagctcagg tggagttgac gcccgacgcc atcgcgttga gcttcggtga 1680 
gcagaatctg acatatcgcg aactcaacgg gagcgccaac cggatcgcgc actatctccg 1740 
ctcgcgcggc gctggacccg gcgaaatggt tggcatccat gtcacgcggt cgctcgaaac 1800 
cgtcgcaggg ctgttgggcg tcctgaaggc cggcgcggcc tacgttccgc tggaaccgga 1860 
atatccggcg caacgtcttc ggctgatgct ggaagagacc aggccggtcg ttgtgctgaa 1920 
tgtcacggaa tcggaagtat ggacgcagcc cgacaccaat ccgaacccgc tcgcgactcc 1980 
cgccgatctc gcctatgtcc tgtacacctc cggttcgacc ggccggccga aaggcgtgca 2040 
aatcacacac caggccgtcg tcaattttct ttcgtcgatg cggcatgagc cgggcatcag 2100 
cgaccgcgat acgctgctcg ccctcacgac gttcatgttc gacatttccg cgctcgagat 2160 
ctttttgccc ttgagcgccg gcgcgcgcgt cgtggtggcg aaccaggaga cggccgtcga 2220 
tggtgagagg ctggcgaggg aactcgcgcg cagcaaagcg acaatgatgc aggcaactcc 2280 
cgccacctgg cgtctgctgc tcgcatccgg ctggcccggc gaccgccgcc tgacggcgct 2340 
ctgcggcggt gaagcccttc ctcgcgatct tgccgaccgg ctcctgcaac gaaccgcggc 2400 
gctatggaat ctttacggac ctaccgaaac gacaatttgg tccgccatcc aacgggtgac 2460 
gacaggtgac ggaccggttt cgattggccg ccccatcgca aacactcagc tctatgtgct 2520 
tgacgatcgg atgcagcccg cacccatcgg tgttgcgggc gaactgtaca tcggcggcgc 2580 
cgggctcgcc cgtggatacc tgaatcgtcc ggaactcagc gcggacaagt tcgtcgccaa 2640 
ttcgttcgac cctcatggca ctcggctgta tcgcacggga gatctcgccc gccgccaacg 2700 
cgacggcgcg ctcgagtatc tcggccggat cgaccaccag gtgaagatac gcgggttccg 2760 
catcgaaacc ggcgagatcg aggccgcggt ccgcagtcac ccggcggtcc gacatgctgt 2820 
ggtcaccgcc agagaaaatg acgcggccgg taagtatctg gcggcctaca ttgtccccct 2880 
tgctgacggg catcgcgcga cggcagccgc cgacacattc cacgaccgag tcgagtccga 2940 
gcacgtgacg cagtggcaat ccgtctggga caccacatat gaacagaatg cgccgaacgc 3000 
ggatccggag ttcaacatcg tcggctggag aagcagtgtt accggagagc cgattccagc 3060 
tgccgagatg cgggagtggg tgcaggattc cgtcgatcgc atcctggcct cgcggccgcg 3120 
tcgcgtgctc gagattggct gtggtacggg actgctgctc ttccgcgtcg ctccccactg 3180 
ttcggagtac tgggccacgg acttttcgca gaaggcgctg gactacatcg ccgctcacgc 3240 
ggaccgcacc ggcctggcaa atgtccgcac gttccggcag gcggccgacg acgcgtgcga 3300 
gatcgacagt cgctcgtgcg atgcggttgt tctgaactcc gttatccagt acttccccgg 3360 
cgaagcgtat ctgcggcgcg tgctggccga ggcggtgcgt gtggtcaaac cgggcggcat 3420 
cgtatttgtc ggcgatgtcc gcagtctccc gctgctggag acgttttacg cttctttaga 3480 
agttcagcgc gcacccgcgt cgttgacccg gaatgagttt cggcaacgcg tgcgttcgct 3540 
cgcgtcgcag gaagaggaac tcgtggtcga tcccgcgttc ttctttgctc tccgcgaaca 3600 
gattccggag atcggccgga ttgaaatcct gccgcgtcgc ggccggtcgc ataacgagct 3660 
gacccgcttc cgctaccagg cgatcctgca tatcggatcg cgggaagcgg aggagccgga 3720 
atcggatcgc aggcgttgcc agaccgcggc cgaaatacgc agagtactga cggacgctca 3780 
gccggagttg gccgcattta ccgagattcc gaacgcacgg ttgaccgccg aaagcgccat 3840 
tgtgacctgg atgaacggtg acgaagctcc agagacactc ggggagttgc gggaccggct 3900 
gcgccagacg tcgccttccg gcgtcgatcc cgccgatcta tggcgtatgg acgaagacct 3960 
gccgtaccgc gtggcaatcg actggagcag tcatgggcca cacggacgct tcgacgcgac 4020 
cttctgccgt gcggcggccg gtccgccggc ttcccgtccg cgacgccgcc tggccggccc 4080 
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gtatacgaac gatccgctgc gagccgtcta tacgcgcacg gttgtgccgc agttgcgtac 4140 
tcatctgaag gagaagctgc ccgactacat gatcccgacc gcgtgggtcg tgctccacga 4200 
aatgccgctg acgcccaacg gaaaaatcga ccgtaacgcc ctgcccgatc ccgagcccag 4260 
ccggcgagcc cacgccgaag cattcacgcc tccggaaact ccggtggaac aggtactcgc 4320 
ccacatttgg ggcgaggtgc tcggcatgga tggcatcggc gtccatgatc acttcttcga 4380 
ctctggagga cattcgctgc tggtcacgca gatgatcgcc cgcgtgcgcg acatgctcca 4440 
cgtggaagtg ccctttcgaa ccgtgtttaa cgcccccacg gttcgaggct tcgccgtcgc 4500 
tattcaggac ggcgtagacc caggatgggc aaggcgagcc gccgatttgc tgatcgctgt 4560 
ttcccaaatg tcagatgttc aaatcgagcg tatgatgagc gccgcccaag actag 4615 



<210> 116 
<211> 8301 
<212> ADN 
<213> bacterie 

<400> 116 

atgcagaatt cgtcgccaaa taccatagac ctctcgctcg cccgccgcca attgctcgac 60 
cgtctgctgc aggaaaacag ccccgaacat cgcatcccgc ggcgtgaaaa ccgggatgcc 120 
gcacccttgt cgctggccca gcagcggctt tggtttctcc atcagctcga cccggattct 180 
cccgcctaca acattcccat agcgctgcat atccgaggtc cgctggatat tcgcgtcctc 240 
ctgcggagtc tggaggccgt ggtgcagcgg cacgagagcc tgcgcagctg cattggcggt 300 
gtggatggag aggcgcgcca gagcctcctg gcgcgagtga cactggaact tccggttgtt 360 
caggctgacg gaatcgcaga agcgcggcaa atggccttgc gtgatgccca gatcccgttc 420 
gacctgcgaa aacccccgct tctgcggacc aagctgatct gcctcgatga caagcagcag 480 
attctcctgc tgacgttgag ccacatcatc gcggatgcgt ggtcggtcga gacgttcgtc 540 
cgcgacctga cgcgatcgta cgaagcgttc gtgcaggggc ggccatcgcc gctcatggaa 600 
ctgccgattc agtatggcga ctgggccgtc catcagcaga cgtcgctgaa ccaaaccgcg 660 
cagcagtact ggaagaaaca gctgtcgggc accttgcctt tcctcgacct tcctaccgat 720 
cgcccccggc ccgcgcagca gacctggcgg ggcgccgtgg agaccacagc cctcggccgt 780 
gatttgaccg atggactcca cgcgtttgcc ttgcgtgaag gagcgacggt gttcatgacg 840 
gcaatcgcgg cgtttcaggt gctgctgcat cgctataccg cgcaggaaga catccttatc 900 
ggggttccag tcgcgggccg tacacaacga gaaacggaag gtctcgtcgg ttgtttcgcc 960 
aacatgatcg tcctgcgcgg cgatctgcgc gacgatccgt cgtttcgcag tcttctcgcc 1020 
cgcacccgcg acaccgcttt gagcgccctc tctcatcagg actttccttt cgaacgcctg 1080 
gttgaggaac tgcatcctcc gcgggacctg agccggtcgc ctgtatttca ggtctccttc 1140 
gcgctgctgc ccgatgcgcc ggccatcacc gtcatgcctg ggctcaccat ctcgcgcgag 1200 
tacatgcaca acggcggatc caaactcgac ctcggcgtga ccctcgagcc atccggcgat 1260 
ggactgatgg cgtccgccga atacaacacc gatttgttcg atgcggcaac catcgcctcc 1320 
ctgctcgatg cgtaccgaac cctgctggcg agcgtggtga cggatcccga cgtccgcatt 1380 
tcaaccgctg cgctgttgtc ccccgcggtc cgaagccgga tgctcgagca gcacaatgcg 1440 
acacggcgcg atgccggtcc gaacgggtgt gcgcatgaac tggtcgaagc tcaggcggaa 1500 
cgcactccgc acgccgtcgc cgttgtcttc gaagaccatc agttgaccta cgccgagctg 1560 
aatgcgcggg ccaaccgcct ggctcatcgt ctgagcgcat ccggcgcggg cccgggaaag 1620 
atcatcgctc tggcgatgga gcgctcgctg gagatggtga ttgcgctgct tgcgattctg 1680 
aagtccggca gcgcgtacct gcctctcgat cccgcgcacc ccaaggatcg tctcgcccgg 1740 
attctcgatg aagtgcaacc gcacgcggtc ctcacgcagg aggcggtggc tgagatgatg 1800 
gcgatgatgg cgatgatggc ggtcgccgtc gaaccagaag ctgcgaatct cgtcagcggc 1860 
agcaagcccg acgatctcgc ctacatcata tatacctccg gatcgacggg gcgaccgaag 1920 
ggcgtggaga tccgccactc gtcgctagtc aatctgctgc gctccatgca gcgcgagccg 1980 
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ggtctgacag ccgccgatgg gctggtcgcc gtcaccaccg tgtcattcga tattgccgga 2040 
ctggagatct ggctgccgtt gatcaccggc gcccgcgtca tcgtcgccac ccgcgagatc 2100 
gtggttgacg gcgagcggct caccaccctg ctggataagt cgggcgctac ggtcatgcag 2160 
gcgaccccga gcggttggcg gcaattgctg gattcgggct ggaagccggg taaaggcttc 2220 
cgtgttttct gcggcggtga agctctgccg ccggaactgg cgcgccgcat tctcgatagt 2280 
ggcgtagagc tgtggaatct ttacggaccg acggagacca ccatatggtc ggccgtgcac 2340 
aagacacaaa gactgggtgc ctccgatagc atcgtgccga tcggccatcc catcgacaac 2400 
acgcagttat acatcctgga ttcgcgcatg gagccggttc cccccggagt tccgggagag 2460 
ctgtacatcg gaggagcggg actggcgcgg ggctatcatc gcaaccccga gctcacgcgt 2520 
gagaaattcc gcgagtggcg tgatcgagga cgcatttact ctaccggcga tctggctcgc 2580 
taccgttccg acggcgcagt cgagtgcctg ggacgagtcg atcgccagat caagctgcgc 2640 
gggtttcgca tcgaaccggc cgagattgag gccgcgatcg agacgcacat tgccgtgaag 2700 
caggcgatta cggtcgtgaa ggacgatcgg ctgatcgcct atctcgttcc ggcaacgggc 2760 
gacgtgcgcg atctgcagag cgatttgcgg tcgtggctgg caacgcgcct tcccgattac 2820 
atgatcccct cggcgtttgt cagcctgtcc tcccttccgc tgacgcccaa cggcaaaatc 2880 
gacgcgaacg cgcttcccgg tttgcccaca acgccggttg ctgctcgcga gccgatgcgc 2940 
ggcgatgtgg tggagacgat tgcgtccatc tggcgtgaag ttctgcgcgt ggagcacgtc 3000 
gactatcggc agaacttctt tgatgtcggc gggcactcgc taatgctcac acgggtgcgc 3060 
ggactgctcg aggagcgcct ggggttgacg ctctccgtcg tcgatctgtt ccggcatacg 3120 
acgatcgagt cgcttgccgg cctggcagaa aaatccgaac ccgccgctgc ggaacctgcg 3180 
gctgcggtcg cagaagatcg gatcgcagtt atcgggatgg ccggccggtt cccgggggcg 3240 
cgcaatgtgg aggagttctg gcgcaatctg cgcgacggtg tggattccat cgccaggctt 3300 
tcgccggaag atctgctggc gggcggcatc agcccggagg tcttccagga cccgagctac 3360 
gtgccggcca agggtctgct ggacggcatc gagtttttcg atgccgcgtt cttcggctac 3420 
agtccgcgcg aagcggagat catggacccg cagcatcgcg tgtttctcga gtgcgcgtgg 3480 
gaagcgatgg agaacgcggg atatgcggcg cgaagctata agggttcgat cggcgttttc 3540 
gcgggatgcg gcgtcaatac ctacctgctg aacaacctcg ccaccgcgga gccgttcgat 3600 
ttctcacgcc cctccgcgta ccagctgctg acggccaacg acaaggattt cctggccacg 3660 
cgtgtctctt acaagctgaa cctccgcggg cccagcctga cggttcagac ggcgtgctcc 3720 
acctcgctgg tgtcggtggt gatggcatgc gagagcttgc agcgcggcgc ctcggacatt 3780 
gccttggccg ggggagttgc catcaatgtt ccgcagtccg tggggtacct gcaccagccg 3840 
ggcatgatcc tgtcgcccga cgggcgctgc cgcgccttcg atgagtccgc tcaaggcacg 3900 
gtgccgggca acggcgcggg tgtggtcgtc ctcaagcgct tgagccgcgc tctggccgat 3960 
ggcgacacga tctacgccgt cattcgcgga gcggctatta ataatgatgg cgccgagcgc 4020 
atggggttta ccgctccagg tgtggacggt cagacgcgat tgattcggcg cactcaagag 4080 
atggcgggcg tgaagccgga gtccatcggc tacatcgagg cccacggaac agccacgccg 4140 
ctcggcgatc cggtggagat cgccgccatc gctgccaact ttccgaaaaa cggaagcggc 4200 
gatgtgtata tcggatccgt caagaccaac atcggtcatc tagacgtcgc ggccggtgtg 4260 
gccgggctga tcaagacggt gcttgccgtc catcgcggcc agattcctcc cagcctgaat 4320 
ttccagcgtc cgaatccgcg aattgatttc gcaaacactc cgtttcgtgt gagtacgcgg 4380 
ctgctcgact ggcccgccgg aaagaccccg agacgagcgg cagtcagttc gttcgggatc 4440 
ggcggcacca acgctcacgt gattctggag caagcgccgc cggtgacgcc ggccgcagct 4500 
gcgcccgaac gatccgcaca tgtgctttgc ctgtccgcca atacagacgc ggccctcgaa 4560 
gaactggtgc gctcgtatcg cggccatatg gacaaccagc ccggtttgtc gttcggcgat 4620 
gtcgcattca cggccaatgc agggcgcgtg cacttcccgc accgtatctg cattgtggcc 4680 
cggtcgagcg acgaggctcg ccaacgactg acggaggcac gacgggttcg catcgcccag 4740 
acgcgcccca agattgcgtt tcttttcacc gggcaaggtg cgcaatacgc gggcatgggc 4800 
cgccagttct acgagtcgca gccggtgttt cgcgccgcca tggatgaatg cgcagctctg 4860 
ctgaatggac ggctcgatct gccggcgctg ttggccgatg acgcgttgct cgacgcgacc 4920 
gccggcgcgc agcccgcgct gtttgctttg cagtgggcct tggcgcagtt gtggaagtcc 4980 
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tggggtgtga cgcccgacct ggtgatggga cacagcgtcg gcgaatacgc ggcggcgtgt 5040 
attgccggcg ccgtcagcct gccggatgcg ctcggcttag ttgccgaacg cggccggctc 5100 
atgcagaacc tgccggaagg tgcgatggct gcggtcagcg ccggcgagca gcgctgtgcc 5160 
gcagcgatca cctcgcgcgt ctccattgcg gccatcaacg gacccgctga ggtcgtgatt 5220 
tcgggtgcgc cgcaggatat tgagagcgcg ctggcaactc tacgtgcgga gggcatcaaa 5280 
acgcagatgc tggccgttgc gcgcgccttt cacagctcga gcatggatcc gattctggcg 5340 
gacctgcaac gccgggcggc ggcgatcgcg tggcgcaatc cttcgatcgg cttggtttcg 5400 
aacctcacgg gcaaactggc cggcgaggga cagctggcga atccgctgta ctggcgagat 5460 
cacgctcgaa accctgtccg tttcgccgac ggtatccaaa cgctcaagga cgaaggctgc 5520 
gacgtgtttc tcgagatcgg tcctaagccg gttctactcg gcatgggcca aaagtgcctg 5580 
cccgacgacg ccaagcagtg gctgccgtcg ctgcgtaaag gccgcgatga gtgggagacg 5640 
attctcagca gtgtggcgac gctatatcag ggtgggttcg acatcgattg gcaggagttc 5700 
gaccgtccgt attcgcgaag gcgtgtcgcc ctgccggcct atcctttcga gagacgccgc 5760 
cattggatcg agcggagttc cagaccggaa cctgtagcgg ttgcgagtgg tctcgtcggg 5820 
tgccggctgt cgctaccggt ggcagacgtt atcttcgagt cgaaactatc gacggcttcg 5880 
cctctactct cagaccaccg atattacggt tcggtggtgg ccccggccgt gtacttcctg 5940 
gccatggcgc tcgaggcgtc ggcggaggtg tttggcgccg gccggcacac gctggaaaac 6000 
gtgaacttcg cgcaccctct gatcctttca gcggagcgcg acacggctgt tcagctcgtg 6060 
ctttcacaga gcgatgaccg gcatgcctcg ttccgcatac tcagcttgtc cgacggctcg 6120 
tggaacttac atgctgccgg caatattgcc gcccacgctg gtgtcgctcc cgtgccccga 6180 
ctggtcgatg aacgccggcc tgcggtggat ggagacacgt actattcgct gctgcgccac 6240 
ctcgagatag aactggggcc gagctaccgc cgcatacagc gcattcattt cggtgaacag 6300 
gaagcgctgg ccgcgattga ttccgcaacg ccgctcaatc cccgttgtga attggcggaa 6360 
gccggcctgc aattgcttag cgccgcggcg agtcccgcgc ttgcggatgg cgccgaacat 6420 
ccgatattcg ctccgctcgg tatcgatcgc gtttgttttt acggcagcct ggagggcgcc 6480 
gtatgggggg ccgcgcaaat tctccggcat tcgccggacg gctttaccgg cgaggcgcag 6540 
ttgctggact cggagggctg cgttctcggg gaacttcagg gcgtgagttt ccggcgcgtc 6600 
actcgcgcat gggcgcagcg ctcggaacgg aagcccgaat tgtatgaggt cgagtggcgg 6660 
cccgaaccgc tccgccagcc ttcgcgaacg ctacagcctg gggcatggct gatcctggcc 6720 
gacagtggcg gcgcggcccg cgctctggca gatgcgctca cagctcaggg cgagatgtgc 6780 
gttaccgtgc cgccagccgg cgagtacatg tccctagtcg gtgagcgtga ctggcgcggg 6840 
atcgtcaacc tgtacagtct cgatgattat gagctcggct gccgcagcac tctggccctg 6900 
gtgaagtccc tgaagtccgg tccgcggcta tggctggtaa cggccggcgc gcaggcgacc 6960 
agtgcggtgc acaatcccat gcaggccgcg ctctggggct tcggccgggf gatcgcgcgc 7020 
gagcacccgg atctgtgggg cgggctcatc gatctggatc ccgacgatgc gcatgcttcg 7080 
gcggccggcg cggccgcgca gatgcgtgat ttcgacggcg aagatcagtc ggcgtggaga 7140 
agcaaccggc gctacgtgcc gcgactgacc cgccgaccca gcgcgcgagc ggcagtccgt 7200 
ctggtttcgg gcgcgactta tttgatcacc ggcgggctcg gagccctggg acttacagtc 7260 
gcgaaatgga tggtggagca cggcgccact cgcgtcgtgc tggccgggcg ccggcctcca 7320 
aacgaggagc agcagcgcgt gctgcaacag attggtgcga cggcagagac ggtcgacgtc 7380 
agccgggaag aagaggtcgc ggatctcatt cgccgcatcc acaccgaaac gtcaccgctg 7440 
cgcggcgtta tccatgccgc gggtgtgctg gacgacggcg tactgctgaa tcaggactgg 7500 
acgcggatcg caagcgtcat ggcgccgaag gcggaaggcg ctgtacacct ccatcatcac 7560 
acccgcgatc tgccgctcga cttcttcgtg ctcttttcat cggcatcctc gctcttaggt 7620 
cctgccgggc aggcaggcta cgccgcggcc aacgccgttc tcgatgcgct ggcgcatcac 7680 
cggcgcggac tgggtttgcc ggcgaccagc attaactggg ggcgctggtc gggagccgga 7740 
atggccgcgc gcaccagcca gtcgatggcc ggcgtggcga gcctctccgt ggacgagggt 7800 
ctacacattc tcgaggccgt cctgcatgaa tgccccattc agattgccgc gctaccggcg 7860 
ggctcgatta ccggcgagtt gctgcgtccc gccgcgctgc cttcacctca actgcgcacc 7920 
cgcttgaacg aagccacacc ccggcagcgc gaagccatcc tcattgcgca catcagggag 7980 
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tcactggcgc gctttgtcgg catcgcgact 
ggtgaactgg gactcgattc gctaatggcc 
ctggggcagc ctttgcccgc gagtctgctg 
agttacgtgc tccatgcggt atttccaccc 
gagaacctcg cccgcgaaga actggaagcg 
cagtggttgg agacgcaata a 



tccacaccgc tcgatccaca gcagcctttg 8040 
atagaacttc gcaactcgct ctcccaatca 8100 
ttcgactatc cgtcgctcga tgcgatcgtc 8160 
gaagcatcac cggtggaagc gccggagttt 8220 
ctgctcgatt cgcggctggc gcaggtcgac 8280 
8301 



<210> 117 
<211> 5292 
<212> ADN 
<213> bacterie 

<400> 117 

atgagcgggt cagacgatct cagcaagctt 
cagaaacgca tcgaccagct ggagagcgcg 
ggctgccgct tccccggcgc atccaatctc 
cgcagcgcgg tacgtgaagt tccacccgac 
gatcccggcg cgacgggccg aatgtacacg 
cgttttgacg cccggttctt cggcatcgct 
cagcggctgc ttctggaagt cacctgggag 
cggctggcgg ggagccggac cggcgtcttc 
ctgcaaatgc gcggcgggga tgcgcatatc 
agcgttgccg ccgggcgtct ctcgtacatc 
gacacggcat gctcgtcatc gctggtcgcg 
ggtgaaagcg acctcgcgct ggcgggcggc 
atctacttct gcaagctgaa ggcgatggca 
gcagcagacg gctacgtccg cggtgagggc 
gacgcgctgc gcgatcgcga tccggtgatg 
gacggacgca gcaatggact gacggcgccg 
caggctgtgg gagacgcgcg cttgcagacg 
accggcacgc cgctgggcga tcccatcgaa 
gggcgcacca acggcaacaa gctgaagctc 
gaggcggcag cgggcgtggc cgcactgatc 
attccgcccc atctgaatct gaccacgccc 
ctcgaaatcc cggcacggct caccccctgg 
ggcatcaact cgttcggctt gagcggtacg 
caacaggccg cgtccagtac gcccgcaccg 
gaggcgctgc gtgatctggc gcgcgcatac 
acctgctaca cggcgtgcgc tcgccgcact 
acgaacgcgc aggacttgat ggccgggctg 
gataccgcca caggttttgt gccgcgcggc 
ggacaaggat cgcagtggcc cggcatgggc 
cgtgccgcca tcgaagagtg cggccgcgcc 
caagagttgc aggggccgct cgaccgcatc 
ggggtcgcct tggccggact gtggcgccat 
cacagcatgg gcgaagtcgc ggcagcgcac 
gctcgggtga tttgcctgcg cagccggatg 
gctgtcgtgg aattagcgct ggacgaggcc 
gtctcgattg ccgccagcaa cagcccgcgc 



cgccgcgccg tgattgcgct cgacaaggtg 60 
cgcagcgagc ccatcgccct catcggcgcg 120 
gatgcctatt ggtcgttgct gcgcgagggc 180 
cgctgggaca tcgatgccta ctacgatccg 240 
cggtacggcg gcttcatcga tcaggttgac 300 
ccgcgcgagg cgatcagcct ggatccacag 360 
gcgatcgaga acgccgggct tccacccgac 420 
atggggatct tttccaacga ttattacaac 480 
gacgcgtaca ccggcacggg caatacggcc 540 
ctcgggctgc agggcccgaa catggcgatc 600 
gtgcaccttg cctgtcagag cctgcgctca 660 
gtcaatctga ttctctcgcc ggatcggacg 720 
gccgacggtc gctgtaaggc attcgatgcc 780 
tgcggtgtgg ttgtgctgaa gcgactctcc 840 
gcggtgattc gcggcacggc aatcaaccag 900 
aacgggcccg cacaggaagc cgtgatccgc 960 
ctggatgtga gctatgtcga ggcgcacgga 1020 
gccggagccc ttgcggccgc gctgggagcg 1080 
gggtcggtga agaccaactt cggccacctc 1140 
aaggtggcgc tgatgctgca gaacgaagcc 1200 
agcccgcaca tcgattggaa cacgcttccc 1260 
ccggttgcac ccggcgggcg gcgcgtcgcc 1320 
aatgcgcacg tgctcatcga gcaggcgccg 1380 
tacctgcttc cgctatcggc gcgcagtccg 1440 
cgcgacgtgg tgaacgacaa ccccgccgac 1500 
tcatacgaac accgcgcggc attcaccggg 1560 
gacagttttc tggcgggcaa cccgaaccgc 1620 
cagaagcgaa aagtcgtttt cgttttgccg 1680 
cgcgacctga tggcttctga accggtgttc 1740 
atgcagcctt acgtcgactg gtcgctgacg 1800 
gacgtgattc aaccggccct gttcgcagtc 1860 
tggggaatcg agccggacgc cgtgatcggc 1920 
attgcaggtg cgctgactct cgatgaagcc 1980 
ctcgccggag tacgcggcca gggagaaatg 2040 
atcgctgcca tcgccgggcg ctcggatcgg 2100 
agcaccgtcc tgtcgggcga cagcgcagct 2160 
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ctgggcgaac tgctgcggga actggaggcg aaagacgtct tctgccgtcg cgtgaaagtg 2220 
gacattgcct cgcacagcca tctgatggac tccgtgtgcg cggcgttgcc gggcgtggtg 2280 
ggagcgcttc agccgcggcc ggccgccctt ggcatgtact ccaccgtcac cggcgcagcg 2340 
attagcggtg aagagctggt ttctgcgtac tgggctcgta atcttcgcca acccgtgatg 2400 
ctgtcgacgg ccgtcgccgc agccgcggcg ggtggtcatg atgtgtttct ggaactgagt 2460 
ccccacccgt tgttggtcca gccgatccag gaaacgctcg gagatcgggc agcgattgcc 2520 
gctgcctcgt tgcggcgcga tgaagacgga aacctcgcac tgcgccggac gctgggagcg 2580 
ctgctgacta acggagtcac tccggactgg tctcgtattt atcccaacgg cggccaaact 2640 
cgccggctgc ccaactatcc ctggcagcgt gagcgttatt ggatcgatat ccgtccgccg 2700 
caggtcgagt ctcaggcttt gcctggccgg cggatcccgt cgccgctgcc ggagatgcag 2760 
ttcgagtcca ctgtggaggc gaaagatttc gcggatcacc ggctgcacga tgtgatcgtg 2820 
actccgggag cgtggcacct ggcaatggcg ctcgccgctg cgcgccaagg tctcggcgcc 2880 
gggcctcacc atgtcgaaca cgtgtcattg acgggcgcgc tgacgctgcc ggaaaacgat 2940 
gctgccaggc aggttcaact ggtactccgt catgaagagg gcggcggagc ttccttccgc 3000 
atctacagcc gcgaggattc ctggaagctg cacagcgaag gcatgctgca ggcgggcgat 3060 
tccacggcat ccatcgatct ggatgcgatt cgcgcccgct gcacggcgga gctcacagcc 3120 
gatgccttct attcgcgact gtgggatcgc ggctatcact tcggtcccac cttccgaacc 3180 
atcggcccca tctggcgcgg caacggtgag gtgctttgtc gcgtggacat tccgctgacg 3240 
gaaatgcaga cgatcgactg ctgtctgcag ttgcccgcgg ccctcgtcca tcacgacgat 3300 
ttgaaagatg tgcatgtgcc ggtaggtctg gaccgattct cgctcgctga agtgcccact 3360 
ggcccggtct ggggatacgc ggtcttgcgg ccggattcca cggtggatgt ccgtctcgtc 3420 
accggcaccg gcagcgtggt ggcggaattg gtggggctgc agtcgagagt cgcccatagc 3480 
ggccagctcg gcgaatcgga gattcccacc tggacggtgc aatggaccgc gtcggttcgc 3540 
cgcggcgatg ccaatgccgg caatgctggc ggaccttggc tcgtcatcgg cgagccggcg 3600 
attgccgaga ctctgcaaaa gcgcggccaa acctgccgca cggccgatac gtgctcgggt 3660 
ccgccgtgcc gtcaaattgt gtactgtccc tcgccgcgca tcgacgacct gctttccgta 3720 
ttgcgcagca tcgtgcaagc gggctggcct gagccgccgc gcctgtggct gctgacgcgc 3780 
ggatctgccg cggttctcaa ctccgacaaa gatattgata ttcgacaagc ctggctgcac 3840 
ggaattgggc ggacgattgc ctatgagcat cccgagctgc gctgcacgct cgtcgatctc 3900 
gatgcgcaca gcaacgactg cgggcatctc gcgacgctga tgctgtcgaa tatcgcagag 3960 
gatcaagttg cgatccggca aggcacggta tgggcgccgc gcctcagtct tcacaagatc 4020 
ccatccgcac ccgatgtggc gttccgtgcc gacgcaacct atctgatcac gggcgggctc 4080 
ggcggactcg gactgcaggt ggcgggatgg ctcgccgccg ccggagcgcg ccatctcgtt 4140 
ctgctgggac gcagcgagcg tcctcggcca caactggaag gtgtcaacgt caagatcatc 4200 
catgcggacg tggcggaccg gcagcagcta tcggatgcgc tcgcgatcat cgatcgcgac 4260 
atgccgccgt tgcggggcgt gttccatctg gcaggcacgc tggccgacgg catgctgctc 4320 
aatctcacga ccgaacgctt cgaagccgcc atggctccga aagtagccgg cgcgtggaac 4380 
ctgcacgaac tcaccgccgg ccggccgctg gatcattttg ttctcttctc ttccgccagc 4440 
gcgacagtgg gatctcccgg ccagggcaac tacgccgccg gcaattcatt tctcgacgcg 4500 
ctggctcatc tgcgccgcgc ccagggtctt cccgccgtca gcatcgcgtg gggaccgtgg 4560 
acacaggttg gtttggccgc acaggcgaac cgcggagacc gtctggccgc gcgcggcatc 4620 
tcggttattc aaccgcaaca gggattgcgc gcgctctaca aagcattgac gcagattcgg 4680 
ccgcacgtcg ctgtcatgaa cttcgatatc gcgcagtggc tccgttacta tccgtcggcc 4740 
gcatcgatgt ccctgctggc cggcatcgca cccgcggccg cggacaccaa accggcggcc 4800 
gacatgcgca gcgagctcct ggcagttcca gccgggcggc agcgccgcgc gcggctggaa 4860 
acgctgctga tgcacgaagc cggacacgtg ctgcgcttcg atccagcgaa actcgacggc 4920 
agagcgacgc tgggtgatct cggattcgat tcgttgatgg ccctcgagtt tcgcaaccgt 4980 
ctggaagccg ggctgcgcgt caagctttct gccaccctga tctggcgtta cccgacattc 5040 
tccgccctgg cgcagcatct cgccgacaag ctcggcctgc cgctggaaag catggccggc 5100 
aatgctgaac cttcgaccgt tgctgccgtt gctacccttg ctaccgttgg caccgccgcg 5160 
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ggcgaggacc ggagtcccgc cgctgcagac gatctcgacg ccgtcgcaaa ccagatcgcc 5220 
gggttggggg acaaagaaat cgaagctttg ttgaaacaga agttcgctca tttttcagga 5280 
gcctccgagt ga 5292 



<210> 118 
<211> 6462 
<212> ADN 
<213> bacterie 

<400> 118 

gtgagttcga tatccgagcg attccccaac cttacgccgt tgcagcaggc gtacctgacg 60 
ctggagcaca tgcagcgacg tctcgatgcg gccgaacgcg acgcgcgcga acccatcgcg 120 
atcgtgggtc tgggctgccg gtttccgggc ggcgatgggc ccgatgagtt ctggcagatg 180 
ttgcgcagtg gagtcgatgc tattcgtgag gtaccgcctg gacgatggga cgaggagtcg . 240 
gtccggcgca tcctgaaatc gttgaacccc gccacgccgg tgaagattca agccggattt 300 
ctcgattcca tcgatggttt cgacaacgat tttttcggca tttcgccacg cgaggccgtc 3 60 
agcattgatc cgcagcagcg gctgctgttg gaagtggcgt gggaggcact ggaggatgcg 420 
gggcagacga tggaagggct ctccggcagc cgcacgggcg tcttcgtcgg gatccacagc 480 
caaagcagcg actatttctg gatgcagacc gccgatggcg cgcgcatcga tccgtatacc 540 
gccaccggca cggcgcatag cgtgatcgcc ggccgacttt cctatttgct gaacttgcaa 600 
ggacccagca tcgcgctcga cacggcctgc tcgtcttcgc tggcggcggt tcatctggcg 660 
tgccagagcc tgcgcagcgg cgagtgtacg ctggccgtgg ccggcggagt gaatctgcgc 720 
ttctcgccgg agtttatgta cgccacctcg aagatgggaa ccgcctcgcc cagcggtcgc 780 
tgccgcgcct tcgacgcggc ggcggacggc atcgtgttcg gagaaggctg cggcgtggtg 840 
gtgctgaagc gcctgtccga tgcactcgcg gccggagacc gggtgtgggc cgtggtgcgc 900 
ggctccgcgg tcaatcagga tggccgctcg gccgggctca ccgctcccaa tgtcgtgtct 960 
cagcaggtcg tcatccggtc ggcattggcc aatgcgggcg tcgcggcgca gcagatcggt 1020 
tacatcgaag cccatggcac ggggactccg ctcggcgatc ccatcgagat cgaggcgctg 1080 
gcggaaaccg tcggcctccc gcgacctgtc ggcgatgtgt gcgcggtcgg gtccctgaaa 1140 
tcgaacatcg gccacctgga gggagcggca ggcatagcgg gattgattaa agcggtgctc 1200 
gcattgagtc acgagacgat accgccgagc ttacacgtga gacagctgaa cccgaatatc 1260 
cggttggagg gaacgtcgct cgacattgtg aaggaagtcc ggccgtggcc cgcgggttcg 1320 
agacgaaggt ttgcgggcgt cagcgcgttt ggttggtccg gcacgaacgc gcatgtcgtt 1380 
cttgaagaag cggcgccgac tggtagaggc gaagctgcga gcgggttcca ttcccgaccc 1440 
cccgccgccg ctgcgcgggc ggctgtcccc ctcgcggagg gggacactgg gggcactccc 1500 
gacattgcag gcactcccga cactgcagac actcccgaca ctgcagacac tcccgacatt 1560 
gcagggactg caggcactgc ggcaactacg ggcattgcag acgcgatgta tgtgcttccg 1620 
ctgtccgcgc atggtgcgga cgaactgcgt cgggtggcgc gggcatacgg ggaattgctg 1680 
acagcgtcgc acgcaccgag cctgcgtgat ctttgctaca cggccgcagt ccgccgcacg 1740 
catcaccgat gccggctcgc tgtttccggc agaacggctg aagaactggc ggcgcagctc 1800 
caggggatca cgatcccttc ccagcgacgg aagacggtat tcgtcttctc gggacaggga 1860 
tcgcaatgga tcggaatggg gcgcagctgg atggaccgcg aacccgttat tcgcgaggcg 1920 
ttggaacgct gcgaggccgc catgcggcct tatgtggact ggtcgctgaa agaagaactg 1980 
gcgaagctcg accgcgtcga ggtcattcag cctgcgctct tcgcgctgca ggtcgccatc 2040 
gccgcattgt ggcgttcctg gggaatcgag ccggatgccg tcatcgggca cagcatggga 2100 
gaggtcgccg ccgctcatgt cgcgggtgcg ctgacgctgc aggatgcggc gcggatcatt 2160 
tgcagccgca gccggctgtt gagccggatc agcggcctgg gcgggatggc gatggtggag 2220 
ctgccgctcg cggaatgtga ggccgtgctg tcgacttaca cggaacgact atcgcccgcg 2280 
gtgtcgaacg gacccaactc caccgtcatc tccggtgaag tcgaagccct ggccgaggtc 2340 
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gtcgcgacgc tggagcggcg aggcgtgtct tgccggccgg tgaaagtgga cttcgccgcg 2400 
catagcccgc aagtggaccc attgtgcgac gaactcctgc agtcgctcga cgggattcaa 2460 
ccgcggcccg cgaccatacc tttttactcc acggtgaccg gcgcgacgct ggagaccacc 2520 
agcctcgaca gcacgtactg ggctcgcaat ctgcgatcgc cggttctgtt ctggcagggc 2580 
atccgccatc ttgccgacag cgggcacgat gtctttctcg agatcagccc tcatcccatc 2640 
ctgctgcccg ccatcggcgg caatgcggcg ctggttccgt ctctgcgccg cgaccaggac 2700 
gaacgcggtt ccatgctcac gtcgctgggc gccctctatg aggctgggca cactgtcgca 2760 
tggcggaccg tgtacccttc cggcaattgc gtgcgcctgc cccggtatcc ctggcagcgt 2820 
cgtcgtttct ggctcgacgc ttcccccgcg cgacacgcga tcacgttggg caatccgctg 2880 
ttgggaaaac gcgtcgaagc ctcgacgcaa cccggcactt tcttctggga gacggaactc 2940 
agtctcgctt ccgtgccttg gctggcagac catcgcgtgc agggcgaagt cgtcttgccg 3000 
gctactgcgt atctcgatat ggctctggcc ggaacttccg agaccttcgg tgaaagtccg 3060 
tgcgtgctgg agcatgtgac tttcacacag atgctcattg tgccgcgcga cggcagcatg 3120 
acgttgcagc tggccatcgc ggtcgataga cccgggatgg cgtcgtttcg gatttccagc 3180 
cggcaggcat cgacatgggt cctgcatgct tccggggaca ttcgtcagac gcctgcggat 3240 
gcatcgaccg tcccgccgga ttctgcggag acggtgcagg cccgctgccc cacagtggtg 3300 
ccggcggcgg agctgtggcg tcagatggcg gagcacggcg tcgagtatgg tccggctttc 3360 
cgcgcgctcg agcagatctg gagttgtcca ggtgaggcga tcgggcgtct gcgtagctcg 3420 
gaaacgcgtt ccactgcgcc ggcgttcctc gatgcatgtc tgcagatcat cgccgcggcg 3480 
tttggtcccg ccggtggaac ctggctgccc gccggcatcg accggatgcg ctggctgcat 354 0 
cccgcacgtt ccgtggtgtg gacgcatgcg cggctggaag gacctatcgc cgatctgtcg 3600 
ctgctggacg gagagggaca actggtcgcc cgcatcgagg gtctgcggct gcagcgcctg 3660 
gatgcgtcgg agcgcatcga catgcgcggc tggttgcacg aactgcgctg ggtcgctcag 3720 
ccgcacgccg ctgcagagcc gccggcggcg cgagcggcgc ggtcatggct cattgtcggc 3780 
gctgtggata gcgcgctcac cgcatggctg cgcgctaccg gcaaccgcgt gacgcagacc 3840 
tcgccggaaa agctcgatga actccagccg ccgctcgagg aaatcgtgtt tttgctcgag.3900 
cacgaaccct catgcgaccg cattctgcat ctcctccaga ccctggggcg cacgccctgg 3960 
cgtcaagcac cgcgcctatg gctggtcacg cgcggcgcgc agccggtcga tggacagatc 4020 
ctgcaagccg gtatcgctca ggcgcctttc tggggtttgg gccggaccgt gcattacgaa 4080 
catccggaac tgaactgcac gctgatcgat ctcgatcccg ccggcggcga agaggaactc 4140 
ctgcacgaac tgctgacgaa caacggcgag aatcaaatcg cctttcgcgg cggcgcgcgt 4200 
tacgtcgcgc gcgtggctcg gcacgaagcg gatatgcaac ccgccatgtt caaggccggc 4260 
gatcggccgt tccggctcga gatcgatgcc cccggagtcc tcgaccggct gcgcttgcgg 4320 
gccacatcgc gccgcccccc gcaagccggt gaagtggaga ttgaagtctg cgccgcgggc 4380 
ctgaacttcc tcgacgttct gctcgccctc ggcgttatgc ccgacgatgc gcccggcgcg 4440 
attgccggca gcccgcgcct gggcggcgaa tgctcgggcc gtatcgtggc catggggaaa 4500 
ggcgtcaccg actttcgcat cggagatgaa gtcgtggccc ttgcgccttg cagtttcggt 4560 
cgcttcgtca ccacgcccgc cttccgcgtt gccttgaagc cggccaacat tcccgccgaa 4620 
caggccgccg ccctgcctat cgcgtttctc accgccgatt acgcgctctc gcgagcggcg 4680 
cggctggcgc ccggcgaacg agtcctgatt cacgctgcca ccggcggtgt gggattggcg 4740 
gcaatccaga tcgcacagcg tgcgggcgcg gagatcttcg ctactgccgg gagtccggaa 4800 
aaacgagcgt atctgcgctc gctgggcatc gcgcatgttt cggattcgcg ctcgatggct 4860 
ttcgtggacg acatccgcaa ttggacgaat caagaaggag tagacgtcgt cctgaattcg 4 920 
ctttccggcg atctgctgga ggcgagcttc gatctgctgc gcgatcatgg acggttcatc 4980 
gagatcggca agcgcgatta ctatgccggc cgcaagctgg ggcttcgccc gttcctgaag 5040 
aacctctcgt acacgctggt cgatttgctc ggcatgtccc tgaagcgccc ggcattgacc 5100 
cgggagctgc tgcaggagat ggtcgcaaaa ttcgaatcgg aaacctggcg gcccctggaa 5160 
acgcgagtga cgaccatcac cgaatcggtg gaggcgtttc gcaccatggc gcaggcgcgg 5220 
cacatcggca aaatcgtcat ggcgatgcga gattgcgcca atgcgcccat cgcaccccta 5280 
cgctcggcgt tcgatagcga gggaacctac ttgattaccg gcggacttgg cgggctcggt 5340 
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cttaccgtcg cacgctggat gatcggacgc ggcgcccggc ggctggtgct gctgagccgc 5400 
cgcgcgcctt cacccgaggt ccagcaagcc atcgccgtca tggacgcaga tgtccggacg 5460 
gtgcaggccg atgtttctca gcgcgatgaa ctcgagcgcg tgatctcttc catcgatcga 5520 
ttgcgcggcg tgattcatgc cgcagccgtt ctcgacgatg cgctgctact gaaccagacg 5580 
gaagcgcatt tccgcaacgt gatggccgcg aaaatcgacg gtgcctggaa cctgcacttg 5640 
ctcacccgcg actgcccgct cgatcatttc gtgctcttct cctccgctgc aggactgctg 5700 
ggcgcgcccg cccagggaaa ctacgcggcc gcgaacgcct ttcttgacgc gctggcctac 5760 
taccggaagg cccaaggcct gccggcgctg agcatcggtt ggggtgcgtg gtcggaggtc 5820 
gggctggctg ccgcgcagga caatcgcgga tcgcggctgg ctttgcgcgg catggaaaac 5880 
ctgacgccgc aacacggcct cgctattctg gaacagctgc tgaacagctc ggcttgccac 5940 
gtcgccgcga tgcccatcaa tgtccgccag tggcggcagt tctatcccaa ggcggcgcag 6000 
tctgcactgt tcgagctttt gcatgacgac gcggcgagcg aagccgatgc gccaaacgcg 6060 
ttgcgcgcgc ggctgcaatc ggccgagcct cagacccgca ggacattgct cgaagaacat 6120 
ctacagcagc agctggcgcg cgtgctgcgc atcgactctc aaactatcga tcccctgcgc 6180 
ccgctgaagg aactcggctt cgattccctc atggccctgg agtttcgcaa ccgtctcgaa 6240 
ctcacactgg gtctcacgct ccccgcgacc ctgatttggg gtcatcccac gctggccggt 6300 
cttgccccgc acctggcgtc gcaaatggga ctgccgctgg tcgaagcgca ggccgcggct 6360 
gctgcggaag gagacagccg cgccatgaaa actgcactca gcgggttgga cgacatgtcg 6420 
gaagaagcag ccgtggctgc gctccgagga gcaaggtcgt ga 6462 



<210> 119 
<211> 5088 
<212> ADN 
<213> bacterie 

<400> 119 

gtgagggaaa aaattgcgcc catgtcgtcg gtcaaactcg cgctattggc gcggaacatg 60 
cggcaaaaca tcgcaggctt cgacctggtt cacgccgaac ccatcgccat cgtcggcatg 120 
gcgtgtcgtt ttccgggcgg cgcgaagaat ccggacgcct tctggacgct gttgaagaac 180 
ggtgtcgacg gtgtcaccga ggtgccgcca gaccgctgga actcggacca gtactactcc 240 
tccgatcccg atgctccggg caaggcgtat gcgcgatatg ccgccttcct cgaacgcatt 300 
gacggtttcg atgcggaatt cttcggcatc tccccccgcg aagctctgaa catggatccg 360 
cagcagcggc tgctgctgga agtgtgctgg gaagcggcag aggacgccgg catctctccc 420 
ggccctctgg cgggcagcgc gaccggcgtc tttgccggct cctgcgccca ggacttcgga 480 
ctgtttcagt acgccgaccc tgcccgcatc ggagcttggt cgggttccgg cgtggcgcat 540 
agcatgttgg ccaatcgcat ctcctatctg ctcgacctgc gcggtccgag catggcggtc 600 
gatacggcct gctcctccgc gctcgtcgcc gtccatctgg cttgccaaag cctgcgccgg 660 
cgcgaatgcg atgcggcatt cgccggcgga gtgaacttga tcctgactcc cgagggcatg 720 
atcgctttgt cgaaggctcg catgttggcg cccgacggac gctgcaagac gttcgacgcc 780 
gcagccgacg gttatgtgcg cggcgagggc tgcggcatcg tgctgctgaa gcggctctcc 840 
gatgcgctgg ccgatggcga tgccatccgt gcagtcatcc gcggctcggc aatcaatcag 900 
gacggacgga gcaatggcat cacggcgccg aatctgcagg cgcagaaggc ggtcctgcaa 960 
gaggcggtgg ccaacgcgca catcgatcca tcccacgtat cgttgatcga ggcgcatggc 1020 
acgggcacgt cgctgggcga tcctatcgag atcgaggccc tgcagtcggt ctacgacgcg 1080 
ccggactctg cgccttgtct gctgggttcc gtaaagacca acatcgggca tctggagggc 1140 
gcggcgggaa tcgccgggct gatcaaagcc gtactcgccc tgcagcatcg caccattcct 1200 
ccgcacctgc attttcgccg gctgaatccg aacatctcac tggacggcag ccggtttcgc 1260 
atcgccacgg aatcgtcgcc gtggacgtcg gaaggacggc cgcgtctggc cggcgtcagc 1320 
tcgttcggtt ttggagggag caacgcgcac gtcatcctcg aagaggcgcc tgcactccct 1380 
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ttgccgaagc cggtcacacg cccgcagctt ctcactctgt cggcgcgcac cgacgaagcg 1440 
ctcggcgaac tggccggcca cttcgcggag ttcctgcagt cgcacccgaa tgcgttgctg 1500 
tccgacgttt gcttcaccag tcaggttggg cgcgacgcat atagtcaccg cttggcgatc 1560 
accgccgcag atgcggcaga ggctgtagcg gcattggccg cggcgccgcg gcgcgaagta 1620 
tcgttgcgcc ggcggccggc aatcgctttt ctcttcaccg gccagggcgc gcagtacgcc 1680 
ggcatgggcg cagagcttta taaaacgcag cctgtttttc gcgacgcgct cgatcgttgc 1740 
gccgattggc tccgtcccca gctcgatgtt ccgctgaccg ttctcttgtt cgagtcggtt 1800 
tcgccgttgc acgagacggc gtatacccag ccggcaatgt ttgccctgga atgggctctg 1860 
gctcagttct ggctgtcgct cggcgtccgg ccggactacg tgctgggcca cagtctcggc 1920 
gagtatgttg cggcgtgtgt ggccggcgcc tttagcgtgg aggacggcct gcggctggtg 1980 
accgccaggg ggcggctggt caatgcgctt ccccgcggca aagcggtcat cgttcacgcc 2040 
aatccgagcc gcatcgcggc gctcgccgcc aaggtggcag tcgccgcatc gaatgcgccg 2100 
gaccgcaccg tgatctccgg cacggctgca gaaatcgcgg aagcgcaaga tgacctgcat 2160 
cgcgccggcg tggaaacgcg agagctgaac gtatcgcatg cgttccattc gccgctgatg 2220 
gatccgattt tggacaagtt cgaagcgctt gcaggtgcga tcgcgtatca gccgctggcg 2280 
atccfcgctgg tgtcgaacgt cagcggagcc gtattgccga aaggcacgac actcgacgcc 2340 
cgctactggc ggcgacagtt gcgcgaaacc gtgcagtttg aaagcgcgat gcgaaccctg 2400 
gcggaccgcg agtgcaagct gtttctggaa atcggcccgc atcccacgct caccacgctg 2460 
gggcgatatt gtctgcccga tgacggcgcg gtctggctgc actccctatc taagggacga 2520 
tcggattggt ccgtgctgct ggaaagtctt ggcggcctgt ttaccgcggg cgtgaatccc 2580 
gactggcgcg gtctctatgc cggggaatca cccagccgcg tcgcgctgcc gacgtatccg 2640 
tttcagcgtg acaccttcag cctgagacgc gtacccgcga gagagccggc gcgcggcggc 2700 
atgttgggag cgcgcctcaa cagcgcgttg ggcgatgtca tcttcgaaaa ttcgctaacc 2760 
acggagacgc ctctgctcca tgagcacgtg atctacgacg cggtcattgt gcccggcgcc 2820 
tggcacgtgt cggcatttct cgaagcggca caggaagtct tcggtccggt tccctgcgcc 2880 
gtctccgatg tcatgatgcg gcaggcactg gccatcccgc cggatacgcc ggtcacggtg 2940 
caagcgattg tcacacccgg cgaggacggc gaagcaaagg tgcaggtctt cagccaggat 3000 
ggcgattcgt ggaagctcca cacggcagcc agtctgcgcg cggcgactgc cggcgccgtt 3060 
catttcgagc tgccggcgca gccttccgaa gtcatttccg gcgatgcgtt ctacggcgcg 3120 
atgaacgcac gcggcgtcga tcttggcccc gccttcagtt gggtggaaga agtctggcgt 3180 
cgcgatggcg aggcgctggg gcgaatgcgt ctgccggtgg ctgaggatgg cgcgaacgct 3240 
taccggctgc accccggcct gatcgattct tgttttcaag tattcggagc gacttggccc 3300 
gcggagcgtt gccagcccgg cgcatacgtg ccggtcggga tcgaagcggt gcgcttctac 3360 
cgtccgccgg caggttctct gcgctgtcat gcgcgtctgc gcccgagctc gagcggcccg 3420 
ttcgtcggtg atctgacgct ggttgaagag accggcgcgg tcatcgccga gttttccgga 34 80 
ctggctgtaa tgcatgccgg tacgctgcaa tccgcacagt cgtggctgca ggatgtgcag 3540 
tggcaggagt gcgagcgatc gacaacgttg aagtccgacg gccctggcaa gccggaggac 3600 
tggttgctgt gtgccggcgc agacgatgtc gccggtttga tgccgcaaga gctgcgcgtc 3660 
gtgtccggcg tcactctccg ccaggcgctg gaacagaccc agactttggt cggccgcccg 3720 
gcgcggctct ggctgatcac gcgcggcgtg catcgcatca gtgatgacga tgcgactccc 3780 
gtcgatcctt tccaggctcc actgtgggga ctcgggcagg cgatcgcgcg cgagcatccc 3840 
gagctgtggg gcggcctgat cgacctcggt tgcgacaatg ccgacatcgc cgccgccatg 3900 
ctgctggatg aaatccgtta tgccggcgac gacaaagcga tcgcattgcg caacggacgc 3960 
cgctacgttc gccggctggt gcggcacaag gaaacgtcga agcggccgcc tgccatttca 4020 
gccgacggcg tctatctgat caccggcggt ctcggcgcat. taggacgaag ggtggcacgc 4080 
cgcttgatcg agcaaggcgc gcgccgtctg gtactggtcg gccggcatac ggaggcagtt 4140 
gccgatctcg agcaactcgg ggctgcagtc atggttgctg cttgcgatgt gagttccgag 4200 
caacagctgg cggcgctgct ggcggacccg cgcacccagc cgctgcgtgg agtcgtgcat 4260 
gccgcaggcg tgctcgatga cggggtagtt acagaacaga cgtgggctcg tttcgagaag 4320 
gtgctggcgc cgaagctgca gggtgcctgg aatcttcacc agctcactcg ccaccatgcg 4380 
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ctcgactttt tcgtactctt ctcttccgcc gcttcgctgc tcggttccgc cggacagagc 4440 
aattactcgg cggccaacgc atttctcgac agccttgccc acatgcgccg cgcgcaagga 4500 
ctaccggcgc tgagcatcaa ttggggacca tgggcgggcg aaggcatggc cgcgcgcatc 4560 
gcgcggcaag gcctgccggg ggtaccgctg ctgccgccgg aagtgggtgc gcgcatcttc 4620 
ggcgatctgc tgggcgagac tgccgctcag atcgcggtgt tccaagtctc cgccgaaaaa 4680 
aggcggagcc cggcgagcga tcccggcttc atccagcaac tcaccgaagc tgcgccggag 4740 
cggcggcagg aactgctgca gatgcgcatc cgcaagcagg ccggcggcgt gctggcgctc 4800 
gatgcgtcca agacgctcga cccgcgccgg ccgctcaagg aatacggact cgattcgctg 4860 
atggcgctgg atctggcgcg cgccatcgga gagctggtgc gcaagagcct tcccgcgaca 4920 
ttgctatacg accatccgac cgtcgagaaa ttggccggcc atgtcctccg cgaactcgga 4980 
ctcgacgtcc ccagcgattc cctcgtcgat gaagtgcggc agctgtccga gcaggagatg 504 0 
gcggcgttca tcacggaaac cttgcaccat ctgggagagg aacgatga 5088 



<210> 120 
<211> 4306 
<212> ADN 
<213> bacterie 

<400> 120 

atgagcgatc tcactcctct tcaacaggcg gtcctggcgc tcaagcgcac gcgagcgcgt 60 
ctcgacgaac tggagagcgt ccacaacgaa cccatcgcga tcgtcggcat ggcttgccgc 120 
tttcccggcg cggactcgcc ggaagcattt tggcagctcc tgcacgatgg catcgatgcc 180 
atccgcgaaa ttcctgcggg ccgttgggat gccgatgcgt tttacgatcc cgatcccaac 240 
gcgccgggaa agatgtacac gcgtctgggc ggattcctcg atggtgccgt cgacggcttc 300 
gacgccggct tcttcggaat cacgccgcgc gaggtcgccg gtctggatcc gcagcagcgc 360 
ctgctgctcg aggtggcatg ggaagctttg gagcgtgcgg gtcggccgcc cgacagtctc 420 
gcgggcagcg acaccggagt gttcatcggg atcagcaccg acgactacag ccggctgaaa 480 
cctaccgatc cggcgctcat tgacgcctat accggtaccg gaaccgcgtt cagcactgcc 540 
gccggacgga tctcctatct gctggggttg cagggaccga acttccccgt cgacacggcg 600 
tgctcttcct cactcgtggc ggttcatctg gcgtgccgca gcttgcagtc gcgagagtgc 660 
agcatggcgc tggccggcgg cgtgaacctg attctggcgc cggaaagcac gatctacttc 720 
tgccgcctgc gggccatggc ggccgatggc cgttgcaaaa gtttcgctgc ctccgccgac 780 
ggttacggcc gcggcgaggg atgcggaatg ctggtgctga agcggctgtc cgatgcgacg 840 
cgtgacggcg atcgtattct ggcgctgatt cgcggatcgg ccgtcaacca cggcggccgc 900 
agcaacggcc tcacggcgcc gaacggtccg gcgcaggaag ccgtgattcg ggcggcgctc 960 
aagaacgccg gcatggcccc cgccgatgtc gattacgtgg aagcccacgg aaccgggacg 1020 
ccgctgggag atcccatcga actgcgggcg atggcagcgg tgctgggcga ggggcgtgcc 1080 
gtcgattctc cgttgatcgt cgggtcggtg aaaaccaact tcggccacct ggaggcggcg 1140 
gcaggtatcg ccggcctgat caagaccatt ctcgccctgc agcaccgaga gattccgccc 1200 
catctgcatt tcaacgcgcc caacccgcac gtactctgga atgagctgcc gctaaagata 1260 
gccaccgcat gttcgccatg gccctccaac ggccgccccc gagttgccgg ggtgagctcg 1320 
ttcggaatca gtggcaccaa ttcgcacgtc gtcctcgcag aagcgaagac gaatgtagaa 1380 
gcgaagacga atgtagaggc gaagacgaat gtagaggcga agacgagtga agaggtcaag 1440 
gcgagtgtag aggccaaagg gaatgtggag gctaaggcta gtgctagtgt ccccctcctc 1500 
gagggggaca gccgcccgcg aagcggcggc ggggggtcgg gccggccgcc cagccgcgag 1560 
gaagtgccgg tcccggatca actccatgcc gaagacggcc gcgaatacct cctaccgctt 1620 
tcggcgcgcc atccgcaggc tctgcgcgat ctcgccggcg cctatcgcga tgggcgcttt 1680 
cacgctccgc tctccgcgct gtgttccgcc gccagcctga cgcgcagtca ctacgaacat 1740 
cgcgcagcgt ttgtggcctc atccctgccc gagttcaatc aattgctcga ggccttccgg 1800 
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cgcaatgaaa ccaatcgcgg cgtcgccacc ggtttcgccg atcccggagt tcgtccgaaa 1860 
ctcgccttca tcttttccgg ccagggcgga cagtacccgc gcatggcgta tcgcctgtat 1920 
tccgacgagc ctgtcttccg atcggcgatc gaacgttgcg acgccgcctt ccgcagcttc 1980 
gtggaatggc ggcttgcgga cctgctcgcc gacgagtcgg gagcatggct gagccagatc 204 0 
gatcgcgtgc agcctgcgct gttcgccgtt caaatcgcgc tggtcgaact gctgcaatcc 2100 
tggggaattc gcccggacgg cgtggccgga cacagcatgg gagaagtggc ggcggcccat 2160 
gtcgcaggca ttctcaccct ggaggacgcg gcccgcatca tctgtcgccg cagccggctg 2220 
ttgctcggac ttcgcggccg gggagcgatg gctctggtcg aactgccgct cgatcgggcg 2280 
aaggccgtgc tcgctgaacg cggtctcact actgtttctg tcgcggccag caacggacca 2340 
cgcagcacgg tgttctcggg agaccgtgtg gctctcgagc atttgaagga cgacttcgag 2400 
aggcgcggcg tcttctgccg gctgattcag gtggatgtcg cttcacacag ctcgcaggtg 2460 
gacccgctcg agaacgaatt gcgccaggaa ctcggccgcg ttattgcaaa acgttccgcc 2520 
gtgccgttct tctccacggt tgaaggacag ttgagcacgg gcgaggcgtg cgacgcgtcg 2580 
tactgggtag ccaatctgcg acagccagtc cgtttctggg agtcgttgca ggcgatggct 2640 
ggtgatgagt tcacgcagtt cctggagatc agtccgcatc ctgtgctgac gccgtcgatc 2700 
gaggatagtc tgcggacgct cggcataaac ggactggttc gccccgtact gcgccgcgac 2760 
gaaccggagc ggcgtgagct gctcgagttg ctcgccgcgc tctacgtgaa tgggcagcgt 2820 
ccggactggc gcgcgctcgc ttcgtctccc gacacgcgcc tggatctgcc gacgtatccc 2880 
tggcagcgcg agcgcttctg gttcgcgacc tcgacgcggc gaagtttgcc ggcagttggc 2940 
ggtcatccgc tgctcggtcg caaggtcgag attgcgctgg cgccggacac acacgtctgg 3 000 
gagtccgtgc tctctctgga tgcgctgccg tttctcgccg atcaccggct caacgagctt 3060 
gtggtgcttc ccggtgccgc ttatgtggag atggcgctgg ccgcagccaa ggaagtgttc 3120 
gcgggtggct gcagcctgga agagatccgg tttgaacaaa tgctggttgt tccttccgcg 3180 
ggcgcctcgc gagtgcaggt catactcgag ggacacgcat tccgcatctc cagtctggcc 3240 
gaaggcggtt ccgattggac cgagcacgcg cgcggcacca tggctgcggc gccggacaag 3300 
gtcgcgccca cggtgagcct gcccacactt ggggatcgca tcgagggcga tgacttctat 3360 
gcggccttcg catcgcaggg gatgcattac ggcgacacct tccgcggcat cgcggaagtg 3420 
tggcggcgcg acggcgaggc agtggcgcga ctgagcgtgc cggatgccgt tcgcgaagca 3480 
gagtccggtt acacgcttca tcctgccttg ctcgatgcct gtttgcaggt gctgggcgcg 3540 
acgcttggcg gcgaaggcag cgccggtcct tgcgtgcctg tcgccatcga acggttgcac 3600 
tgtttcggca gacccgccgg cgatcttagg gtgcatgcgc ggctgacggg gcggctcgag 3660 
ggcgatgtca ccctgtgtga tgcggaaggc cacgtcatcc tcgaggtcca aggcctgcgt 3720 
gcccaggaac tggagcgcca atccgaatgg ttccacgcta tggaatggga gccgcagctg 3780 
ctggccgaga gtccaacggc aacggtgtcg ggtgcatggc tggtcattgc cgatgccggc 3840 
ggcatcgcag ccgcggtggc gcgagggctg ggcacaaaca cggttgtgat ttcgggtcgc 3900 
gatgccgaga taccggatca gccttaccgg ggcgtcattc actgcgggag cctggatgag 3960 
accgaggatg agaccgatcc gtcggctgcg gggggaaccg cctgcgaaga cattttgcgc 4020 
atcgttcaag aattcggagt gggacgcata cagctgacga aacaagcgtc cgacgccgaa 4080 
tcgcagcatc cgcgaatctg gctgattacg gcgggcgttc atgcggagca tctgcagatg 4140 
ccggtggtgc ccgcgcgggc accggtgtgg ggtctgggac gtaccatcgc ggccgagcat 4200 
cccgagttcg cttgcacctg catcgatctc gacactgccg gtgaagtcga ggtgcaggcg 4260 
ctctgccgag agattctcgc ggggagttct gaacgtcagg gcccgg 4306 
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Leu Gin Cys Pro Glu Ser Ala Val Asp Leu Gin Gin Pro Leu Val Arg 
15 10 15 

Met Gly Leu Asp Ser Leu Met Ala Val Gin Leu Arg Asn Arg He Asp 
20 25 30 

Thr Asp Leu Arg Val Leu Leu Pro Met Val Arg Phe Leu Asp Gly Pro 
35 40 45 

Ser Val Ala Glu Leu Ala Arg Asp Leu Ser Asp Leu Ser Gly Leu Ser 
50 55 60 

Glu Arg Thr Thr Val Ala Pro Glu Pro Ala Ala Gin Ala Ser Val Pro 
65 70 75 80 

Ala Leu Ser Tyr Pro Leu Ser Ala Gly Gin Gin Ala Leu Trp Phe He 
85 90 95 

Tyr Arg Ser Ala Pro Glu Ser Pro Ala Tyr Asn He Ala Trp He Ala 
100 105 no 

Arg Ala Arg Gly Ala Phe Asp Pro Gin Ala Leu Arg Arg Ser Leu Gin 
115 120 125 

Asp Leu Val Asp Arg His Pro Ala Leu Arg Thr Thr He Ala Glu Ser 
130 135 140 

Gly Gly Ala Pro Val Gin Thr Val His Ser Ser Val Pro Val Asp Phe 
145 150 155 160 

Glu Val He Pro Cys Ser Pro Asp Asp Glu Ala Val Leu He Asp Gly 
165 170 175 

Val Phe His Ala Pro Phe Asn Leu Gly Glu Asn Cys Phe Arg Ser Arg 
180 185 igo 

Leu Leu Val Gin Ser Gly Lys Asp Gin Val Leu Ala He Val Val His 
195 200 205 

His He Leu Ala Asp Phe Trp Ser Leu Leu Val Met Val Asp Glu Leu 
210 215 220 

Arg Ser lie Tyr Leu Ala Arg Thr Ala Gly Gly Pro Pro Val Ala Pro 
225 230 235 240 



Pro Val Ala Ser Phe Ala Ala Phe Val Arg Trp Gin Asn Glu Leu Leu 
245 250 255 

Ala Gly Thr Glu Gly Glu Arg Leu Trp Asn Tyr Trp Ser Ser Gin Leu 
260 265 270 
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Ser Gly Gin Leu Pro Val Leu Asn Leu Pro Ser Asp Arg Pro Ser Pro 
275 280 285 

Pro Val Gin Ser Phe Arg Gly Asn Ser His Ser Phe Arg lie Glu Pro 
290 295 300 

Ala Leu Thr Ala Lys Leu Lys Ala Leu Ala Arg Arg Gin Asn Ala Thr 
305 310 315 320 

Leu His Ala Thr Leu Met Ala Ala Phe Gin Val Leu Leu Ser Arg Trp 
325 330 335 

Thr Ser Gin Glu Glu He Leu Thr Gly Thr Leu Thr Asn Gly Arg Thr 
340 345 350 

Gin Pro Glu Phe Ala Asp Leu Val Gly Tyr Phe Val Asn Pro Val He 
355 360 365 

Leu Arg Gly Glu Leu Ser Gly Asp Pro Asp Phe Asn Thr Val Leu Ala 
370 375 380 

Arg He Arg Gin Thr Leu Leu Gly Ala He Glu His Gin Glu Tyr Pro 
385 390 395 400 

Tyr Ala Arg He Val Glu Arg Leu Gly Pro Gly Leu Arg Val Leu Phe 
405 410 415 

Val Leu Gin Gin Pro His Arg He Pro Glu Ser Val Pro Phe Met Leu 
420 425 430 

Gly Gin Ser Gly Gly Arg Met Ala Trp Gly Ser Leu Thr Leu Glu Ser 
435 440 445 

Leu Ala Met Pro Leu Arg Gin Ser Arg Phe Asp Leu Asp Leu Met Met 
450 455 460 

Val Glu Thr Asp Gly Gly Leu Ser Ala Phe Leu Gin Tyr Asn Thr Asp 
465 470 475 480 

He Phe Asp Ala Ala Thr He Glu Arg Leu Ser Leu His Phe Ala Val 
485 490 495 

Leu Leu Glu Gly He Ala Glu Asn Pro Ala Cys Pro Val Val Asp Leu 
500 505 510 

Pro Leu Leu Thr Thr Arg Glu Arg He Gin Leu Leu Glu Glu Trp Asn 
515 520 525 



Ala Thr Ala Ala Glu Phe Pro Ser Gin Cys Val His Glu Leu Phe Glu 
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Ala Gin Val Glu Leu Thr Pro Asp Ala He Ala Leu Ser Phe Gly Glu 
545 550 555 560 

Gin Asn Leu Thr Tyr Arg Glu Leu Asn Gly Ser Ala Asn Arg He Ala 
565 570 575 

His Tyr Leu Arg Ser Arg Gly Ala Gly Pro Gly Glu Met Val Gly He 
580 585 590 

His Val Thr Arg Ser Leu Glu Thr Val Ala Gly Leu Leu Gly Val Leu 
595 600 605 

Lys Ala Gly Ala Ala Tyr Val Pro Leu Glu Pro Glu Tyr Pro Ala Gin 
610 615 620 

Arg Leu Arg Leu Met Leu Glu Glu Thr Arg Pro Val Val Val Leu Asn 
625 630 635 640 

Val Thr Glu Ser Glu Val Trp Thr Gin Pro Asp Thr Asn Pro Asn Pro 
645 650 655 

Leu Ala Thr Pro Ala Asp Leu Ala Tyr Val Leu Tyr Thr Ser Gly Ser 
660 665 670 

Thr Gly Arg Pro Lys Gly Val Gin He Thr His Gin Ala Val Val Asn 
675 680 685 

Phe Leu Ser Ser Met Arg His Glu Pro Gly He Ser Asp Arg Asp Thr 
690 695 700 

Leu Leu Ala Leu Thr Thr Phe Met Phe Asp He Ser Ala Leu Glu He 
705 710 715 720 

Phe Leu Pro Leu Ser Ala Gly Ala Arg Val Val Val Ala Asn Gin Glu 
725 730 735 

Thr Ala Val Asp Gly Glu Arg Leu Ala Arg Glu Leu Ala Arg Ser Lys 
740 745 750 

Ala Thr Met Met Gin Ala Thr Pro Ala Thr Trp Arg Leu Leu Leu Ala 
755 760 765 

Ser Gly Trp Pro Gly Asp Arg Arg Leu Thr Ala Leu Cys Gly Gly Glu 
770 775 780 

Ala Leu Pro Arg Asp Leu Ala Asp Arg Leu Leu Gin Arg Thr Ala Ala 
785 790 795 800 
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Leu Trp Asn Leu Tyr Gly Pro Thr Glu Thr Thr He Trp Ser Ala He 
805 810 815 

Gin Arg Val Thr Thr Gly Asp Gly Pro Val Ser He Gly Arg Pro He 
820 825 830 

Ala Asn Thr Gin Leu Tyr Val Leu Asp Asp Arg Met Gin Pro Ala Pro 
835 840 845 

He Gly Val Ala Gly Glu Leu Tyr He Gly Gly Ala Gly Leu Ala Arg 
850 855 860 

Gly Tyr Leu Asn Arg Pro Glu Leu Ser Ala Asp Lys Phe Val Ala Asn 
865 870 875 880 

Ser Phe Asp Pro His Gly Thr Arg Leu Tyr Arg Thr Gly Asp Leu Ala 
885 890 895 

Arg Arg Gin Arg Asp Gly Ala Leu Glu Tyr Leu Gly Arg He Asp His 
900 905 910 

Gin Val Lys He Arg Gly Phe Arg He Glu Thr Gly Glu He Glu Ala 
915 920 925 

Ala Val Arg Ser His Pro Ala Val Arg His Ala Val Val Thr Ala Arg 
930 935 940 

Glu Asn Asp Ala Ala Gly Lys Tyr Leu Ala Ala Tyr He Val Pro Leu 
945 950 955 960 

Ala Asp Gly His Arg Ala Thr Ala Ala Ala Asp Thr Phe His Asp Arg 
965 970 975 

Val Glu Ser Glu His Val Thr Gin Trp Gin Ser Val Trp Asp Thr Thr 
980 985 990 

Tyr Glu Gin Asn Ala Pro Asn Ala Asp Pro Glu Phe Asn He Val Gly 
995 1000 1005 

Trp Arg Ser Ser Val Thr Gly Glu Pro He Pro Ala Ala Glu Met Arg 
1010 1015 1020 

Glu Trp Val Gin Asp Ser Val Asp Arg He Leu Ala Ser Arg Pro Arg 
1025 1030 1035 1040 

Arg Val Leu Glu He Gly Cys Gly Thr Gly Leu Leu Leu Phe Arg Val 
1045 1050 1055 

Ala Pro His Cys Ser Glu Tyr Trp Ala Thr Asp Phe Ser Gin Lys Ala 
1060 1065 1070 
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Leu Asp Tyr He Ala Ala His Ala Asp Arg Thr Gly Leu Ala Asn Val 
1075 1080 1085 

Arg Thr Phe Arg Gin Ala Ala Asp Asp Ala Cys Glu He Asp Ser Arg 
1090 1095 1100 

Ser Cys Asp Ala Val Val Leu Asn Ser Val He Gin Tyr Phe Pro Gly 
1105 1110 1115 1120 

Glu Ala Tyr Leu Arg Arg Val Leu Ala Glu Ala Val Arg Val Val Lys 
1125 1130 1135 

Pro Gly Gly He Val Phe Val Gly Asp Val Arg Ser Leu Pro Leu Leu 
1140 1145 1150 

Glu Thr Phe Tyr Ala Ser Leu Glu Val Gin Arg Ala Pro Ala Ser Leu 
1155 1160 1165 

Thr Arg Asn Glu Phe Arg Gin Arg Val Arg Ser Leu Ala Ser Gin Glu 
1170 1175 1180 

Glu Glu Leu Val Val Asp Pro Ala Phe Phe Phe Ala Leu Arg Glu Gin 
1185 1190 1195 1200 

He Pro Glu He Gly Arg He Glu He Leu Pro Arg Arg Gly Arg Ser 
1205 1210 1215 

His Asn Glu Leu Thr Arg Phe Arg Tyr Gin Ala He Leu His He Gly 
1220 1225 1230 

Ser Arg Glu Ala Glu Glu Pro Glu Ser Asp Arg Arg Arg Cys Gin Thr 
1235 1240 1245 

Ala Ala Glu lie Arg Arg Val Leu Thr Asp Ala Gin Pro Glu Leu Ala 
1250 1255 1260 

Ala Phe Thr Glu He Pro Asn Ala Arg Leu Thr Ala Glu Ser Ala He 
1265 1270 1275 1280 

Val Thr Trp Met Asn Gly Asp Glu Ala Pro Glu Thr Leu Gly Glu Leu 
1285 1290 1295 

Arg Asp Arg Leu Arg Gin Thr Ser Pro Ser Gly Val Asp Pro Ala Asp 
1300 1305 1310 

Leu Trp Arg Met Asp Glu Asp Leu Pro Tyr Arg Val Ala He Asp Trp 
1315 1320 1325 

Ser Ser His Gly Pro His Gly Arg Phe Asp Ala Thr Phe Cys Arg Ala 
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Ala Ala Gly Pro Pro Ala Ser Arg Pro Arg Arg Arg Leu Ala Gly Pro 
1345 1350 1355 1360 

Tyr Thr Asn Asp Pro Leu Arg Ala Val Tyr Thr Arg Thr Val Val Pro 
1365 1370 1375 

Gin Leu Arg Thr His Leu Lys Glu Lys Leu Pro Asp Tyr Met lie Pro 
1380 1385 1390 

Thr Ala Trp Val Val Leu His Glu Met Pro Leu Thr Pro Asn Gly Lys 
1395 1400 1405 

lie Asp. Arg Asn Ala Leu Pro Asp Pro Glu Pro Ser Arg Arg Ala His 
1410 1415 1420 

Ala Glu Ala Phe Thr Pro Pro Glu Thr Pro Val Glu Gin Val Leu Ala 
1425 1430 1435 1440 

His He Trp Gly Glu Val Leu Gly Met Asp Gly He Gly Val His Asp 
1445 1450 ' 1455 

His Phe Phe Asp Ser Gly Gly His Ser Leu Leu Val Thr Gin Met He 
1460 1465 1470 

Ala Arg Val Arg Asp Met Leu His Val Glu Val Pro Phe Arg Thr Val 
1475 1480 1485 

Phe Asn Ala Pro Thr Val Arg Gly Phe Ala Val Ala He Gin Asp Gly 
1490 1495 1500 

Val Asp Pro Gly Trp Ala Arg Arg Ala Ala Asp Leu Leu He Ala Val 
1505 1510 1515 1520 

Ser Gin Met Ser Asp Val Gin He Glu Arg Met Met Ser Ala Ala Gin 
1525 1530 1535 



<210> 122 
<211> 2766 
<212> PRT 
<213> bacterie 

<400> 122 

Met Gin Asn Ser Ser Pro Asn Thr He Asp Leu Ser Leu Ala Arg Arg 
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Gin Leu Leu Asp Arg Leu Leu Gin Glu Asn Ser Pro Glu His Arg lie 
20 25 30 

Pro Arg Arg Glu Asn Arg Asp Ala Ala Pro Leu Ser Leu Ala Gin Gin 
35 40 45 

Arg Leu Trp Phe Leu His Gin Leu Asp Pro Asp Ser Pro Ala Tyr Asn 
50 .55 60 

He Pro He Ala Leu His He Arg Gly Pro Leu Asp He Arg Val Leu 
65 70 75 80 

Leu Arg Ser Leu Glu Ala Val Val Gin Arg His Glu Ser Leu Arg Ser 
85 90 95 

Cys He Gly Gly Val Asp Gly Glu Ala Arg Gin Ser Leu Leu Ala Arg 
100 105 110 

Val Thr Leu Glu Leu Pro Val Val Gin Ala Asp Gly He Ala Glu Ala 
115 120 125 

Arg Gin Met Ala Leu Arg Asp Ala Gin He Pro Phe Asp Leu Arg Lys 
130 135 140 

Pro Pro Leu Leu Arg Thr Lys Leu He Cys Leu Asp Asp Lys Gin Gin 
145 150 155 160 

He Leu Leu Leu Thr Leu Ser His He He Ala Asp Ala Trp Ser Val 
165 170 175 

Glu Thr Phe Val Arg Asp Leu Thr Arg Ser Tyr Glu Ala Phe Val Gin 
180 185 190 

Gly Arg Pro Ser Pro Leu Met Glu Leu Pro He Gin Tyr Gly Asp Trp 
195 200 205 

Ala Val His Gin Gin Thr Ser Leu Asn Gin Thr Ala Gin Gin Tyr Trp 
210 215 220 

Lys Lys Gin Leu Ser Gly Thr Leu Pro Phe Leu Asp Leu Pro Thr Asp 
225 230 235 240 

Arg Pro Arg Pro Ala Gin Gin Thr Trp Arg Gly Ala Val Glu Thr Thr 



245 



250 



255 



Ala Leu Gly Arg Asp Leu Thr Asp Gly Leu His Ala Phe Ala Leu Arg 
260 265 270 
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Glu Gly Ala Thr Val Phe Met Thr Ala He Ala Ala Phe Gin Val Leu 
275 280 285 



Leu His Arg Tyr Thr Ala Gin Glu Asp He Leu He Gly Val Pro Val 
290 295 300 



Ala Gly Arg Thr Gin Arg Glu Thr Glu Gly Leu Val Gly Cys Phe Ala 
305 310 315 320 



Asn Met He Val Leu Arg Gly Asp Leu Arg Asp Asp Pro Ser Phe Arg 
325 330 335 



Ser Leu Leu Ala Arg Thr Arg Asp Thr Ala Leu Ser Ala Leu Ser His 
340 345 350 



Gin Asp Phe Pro Phe Glu Arg Leu Val Glu Glu Leu His Pro Pro Arg 
355 360 365 



Asp Leu Ser Arg Ser Pro Val Phe Gin Val Ser Phe Ala Leu Leu Pro 
370 375 380 



Asp Ala Pro Ala He Thr Val Met Pro Gly Leu Thr He Ser Arg Glu 
385 390 395 400 



Tyr Met His Asn Gly Gly Ser Lys Leu Asp Leu Gly Val Thr Leu Glu 
405 410 415 



Pro Ser Gly Asp Gly Leu Met Ala Ser Ala Glu Tyr Asn Thr Asp Leu 
420 425 430 



Phe Asp Ala Ala Thr He Ala Ser Leu Leu Asp Ala Tyr Arg Thr Leu 
435 440 445 



Leu Ala Ser Val Val Thr Asp Pro Asp Val Arg He Ser Thr Ala Ala 
450 455 460 



Leu Leu Ser Pro Ala Val Arg Ser Arg Met Leu Glu Gin His Asn Ala 
465 470 475 480 



Thr Arg Arg Asp Ala Gly Pro Asn Gly Cys Ala His Glu Leu Val Glu 
485 490 495 



Ala Gin Ala Glu Arg Thr Pro His Ala Val Ala Val Val Phe Glu Asp 
500 505 510 



His Gin Leu Thr Tyr Ala Glu Leu Asn Ala Arg Ala Asn Arg Leu Ala 
515 520 525 



His Arg Leu Ser Ala Ser Gly Ala Gly Pro Gly Lys He lie Ala Leu 
530 535 540 
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Ala Met Glu Arg Ser Leu Glu Met Val He Ala Leu Leu Ala He Leu 
545 550 555 560 

Lys Ser Gly Ser Ala Tyr Leu Pro Leu Asp Pro Ala His Pro Lys Asp 
565 570 575 

Arg Leu Ala Arg He Leu Asp Glu Val Gin Pro His Ala Val Leu Thr 
580 585 590 

Gin Glu Ala Val Ala Glu Met Met Ala Met Met Ala Met Met Ala Val 
595 600 605 

Ala Val Glu Pro Glu Ala Ala Asn Leu Val Ser Gly Ser Lys Pro Asp 
610 615 620 

Asp Leu Ala Tyr He He Tyr Thr Ser Gly Ser Thr Gly Arg Pro Lys 
625 630 635 640 

Gly Val Glu He Arg His Ser Ser Leu Val Asn Leu Leu Arg Ser Met 
645 650 655 

Gin Arg Glu Pro Gly Leu Thr Ala Ala Asp Gly Leu Val Ala Val Thr 
660 665 670 

Thr Val Ser Phe Asp He Ala Gly Leu Glu He Trp Leu Pro Leu He 
675 680 685 

Thr Gly Ala Arg Val He Val Ala Thr Arg Glu He Val Val Asp Gly 
690 695 700 

Glu Arg Leu Thr Thr Leu Leu Asp Lys Ser Gly Ala Thr Val Met Gin 
705 710 715 720 

Ala Thr Pro Ser Gly Trp Arg Gin Leu Leu Asp Ser Gly Trp Lys Pro 
725 730 735 

Gly Lys Gly Phe Arg Val Phe Cys Gly Gly Glu Ala Leu Pro Pro Glu 
740 745 750 

Leu Ala Arg Arg He Leu Asp Ser Gly Val Glu Leu Trp Asn Leu Tyr 
755 760 765 

Gly Pro Thr Glu Thr Thr He Trp Ser Ala Val His Lys Thr Gin Arg 
770 775 780 

Leu Gly Ala Ser Asp Ser He Val Pro He Gly His Pro He Asp Asn 
785 790 795 800 

Thr Gin Leu Tyr He Leu Asp Ser Arg Met Glu Pro Val Pro Pro Gly 
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Val Pro Gly Glu Leu Tyr lie Gly Gly Ala Gly Leu Ala Arg Gly Tyr 
820 825 830 

His Arg Asn Pro Glu Leu Thr Arg Glu Lys Phe Arg Glu Trp Arg Asp 
835 840 845 

Arg Gly Arg lie Tyr Ser Thr Gly Asp Leu Ala Arg Tyr Arg Ser Asp 
850 855 860 

Gly Ala Val Glu Cys Leu Gly Arg Val Asp Arg Gin lie Lys Leu Arg 
865 870 875 880 

Gly Phe Arg He Glu Pro Ala Glu He Glu Ala Ala He Glu Thr. His 
885 890 895 

He Ala Val Lys Gin Ala He Thr Val Val Lys Asp Asp Arg Leu He 
900 905 910 

Ala Tyr Leu Val Pro Ala Thr Gly Asp Val Arg Asp Leu Gin Ser Asp 
915 920 925 

Leu Arg Ser Trp Leu Ala Thr Arg Leu Pro Asp Tyr Met He Pro Ser 
930 935 940 

Ala Phe Val Ser Leu Ser Ser Leu Pro Leu Thr Pro Asn Gly Lys He 
945 950 955 960 

Asp Ala Asn Ala Leu Pro Gly Leu Pro Thr Thr Pro Val Ala Ala Arg 
965 970 975 

Glu Pro Met Arg Gly Asp Val Val Glu Thr He Ala Ser He Trp Arg 
980 985 990 

Glu Val Leu Arg Val Glu His Val Asp Tyr Arg Gin Asn Phe Phe Asp 
995 1000 1005 

Val Gly Gly His Ser Leu Met Leu Thr Arg Val Arg Gly Leu Leu Glu 
1010 1015 1020 

Glu Arg Leu Gly Leu Thr Leu Ser Val Val Asp Leu Phe Arg His Thr 
1025 1030 1035 1040 

Thr He Glu Ser Leu Ala Gly Leu Ala Glu Lys Ser Glu Pro Ala Ala 



1045 



1050 



1055 



Ala Glu Pro Ala Ala Ala Val Ala Glu Asp Arg He Ala Val He Gly 
1060 1065 1070 
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Met Ala Gly Arg Phe Pro Gly Ala Arg Asn Val Glu Glu Phe Trp Arg 
1075 1080 1085 

Asn Leu Arg Asp Gly Val Asp Ser lie Ala Arg Leu Ser Pro Glu Asp 
1090 1095 1100 

Leu Leu Ala Gly Gly lie Ser Pro Glu Val Phe Gin Asp Pro Ser Tyr 
1105 1110 1115 1120 

Val Pro Ala Lys Gly Leu Leu Asp Gly lie Glu Phe Phe Asp Ala Ala 
1125 1130 1135 

Phe Phe Gly Tyr Ser Pro Arg Glu Ala Glu He Met Asp Pro Gin His 
1140 1145 1150 

Arg Val Phe Leu Glu Cys Ala Trp Glu Ala Met Glu Asn Ala Gly Tyr 
1155 1160 1165 

Ala Ala Arg Ser Tyr Lys Gly Ser He Gly Val Phe Ala Gly Cys Gly 
1170 1175 1180 

Val Asn Thr Tyr Leu Leu Asn Asn Leu Ala Thr Ala Glu Pro Phe Asp 
1185 1190 1195 1200 

Phe Ser Arg Pro Ser Ala Tyr Gin Leu Leu Thr Ala Asn Asp Lys Asp 
1205 1210 1215 

Phe Leu Ala Thr Arg Val Ser Tyr Lys Leu Asn Leu Arg Gly Pro Ser 
1220 1225 1230 

Leu Thr Val Gin Thr Ala Cys Ser Thr Ser Leu Val Ser Val Val Met 
1235 1240 1245 

Ala Cys Glu Ser Leu Gin Arg Gly Ala Ser Asp He Ala Leu Ala Gly 
1250 1255 1260 

Gly Val Ala He Asn Val Pro Gin Ser Val Gly Tyr Leu His Gin Pro 
1265 1270 1275 1280 

Gly Met He Leu Ser Pro Asp Gly Arg Cys Arg Ala Phe Asp Glu Ser 
1285 1290 1295 

Ala Gin Gly Thr Val Pro Gly Asn Gly Ala Gly Val Val Val Leu Lys 
1300 1305 1310 

Arg Leu Ser Arg Ala Leu Ala Asp Gly Asp Thr He Tyr Ala Val lie 
1315 1320 1325 

Arg Gly Ala Ala He Asn Asn Asp Gly Ala Glu Arg Met Gly Phe Thr 
1330 1335 1340 
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Ala Pro Gly Val Asp Gly Gin Thr Arg Leu He Arg Arg Thr Gin Glu 
1345 1350 1355 1360 

Met Ala Gly Val Lys Pro Glu Ser He Gly Tyr He Glu Ala His Gly 
1365 1370 1375 

Thr Ala Thr Pro Leu Gly Asp Pro Val Glu He Ala Ala He Ala Ala 
1380 1385 1390 

Asn Phe Pro Lys Asn Gly Ser Gly Asp Val Tyr He Gly Ser Val Lys 
1395 1400 1405 

Thr Asn He Gly His Leu Asp Val Ala Ala Gly Val Ala Gly Leu He 
1410 1415 1420 

Lys Thr Val Leu Ala Val His Arg Gly Gin He- Pro Pro Ser Leu Asn 
1425 1430 1435 1440 

Phe Gin Arg Pro Asn Pro Arg He Asp Phe Ala Asn Thr Pro Phe Arg 
1445 1450 1455 

Val Ser Thr Arg Leu Leu Asp Trp Pro Ala Gly Lys Thr Pro Arg Arg 
1460 1465 1470 

Ala Ala Val Ser Ser Phe Gly He Gly Gly Thr Asn Ala His Val He 
1475 1480 1485 

Leu Glu Gin Ala Pro Pro Val Thr Pro Ala Ala Ala Ala Pro Glu Arg 
1490 1495 1500 

Ser Ala His Val Leu Cys Leu Ser Ala Asn Thr Asp Ala Ala Leu Glu 
1505 1510 1515 1520 

Glu Leu Val Arg Ser Tyr Arg Gly His Met Asp Asn Gin Pro Gly Leu 
1525 1530 1535 

Ser Phe Gly Asp Val Ala Phe Thr Ala Asn Ala Gly Arg Val His Phe 
1540 1545 1550 

Pro His Arg He Cys He Val Ala Arg Ser Ser Asp Glu Ala Arg Gin 
1555 1560 1565 

Arg Leu Thr Glu Ala Arg Arg Val Arg He Ala Gin Thr Arg Pro Lys 
1570 1575 1580 

He Ala Phe Leu Phe Thr Gly Gin Gly Ala Gin Tyr Ala Gly Met Gly 
1585 1590 1595 1600 

Arg Gin Phe Tyr Glu Ser Gin Pro Val Phe Arg Ala Ala Met Asp Glu 
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1605 



1610 



1615 



Cys Ala Ala Leu Leu Asn Gly Arg Leu Asp Leu Pro Ala Leu Leu Ala 
1620 1625 1630 

Asp Asp Ala Leu Leu Asp Ala Thr Ala Gly Ala Gin Pro Ala Leu Phe 
1635 1640 1645 

Ala Leu Gin Trp Ala Leu Ala Gin Leu Trp Lys Ser Trp Gly Val Thr 
1650 1655 1660 

Pro Asp Leu Val Met Gly His Ser Val Gly Glu Tyr Ala Ala Ala Cys 
1665 1670 1675 1680 

He Ala Gly Ala Val Ser Leu Pro Asp Ala Leu Gly Leu Val Ala Glu 
1685 1690 1695 

Arg Gly Arg Leu Met Gin Asn Leu Pro Glu Gly Ala Met Ala Ala Val 
1700 1705 1710 

Ser Ala Gly Glu Gin Arg Cys Ala Ala Ala lie Thr Ser Arg Val Ser 
1715 1720 1725 

He Ala Ala He Asn Gly Pro Ala Glu Val Val He Ser Gly Ala Pro 
1730 1735 1740 

Gin Asp He Glu Ser Ala Leu Ala Thr Leu Arg Ala Glu Gly He Lys 
1745 1750 1755 1760 

Thr Gin Met Leu Ala Val Ala Arg Ala Phe His Ser Ser Ser Met Asp 
1765 1770 1775 

Pro He Leu Ala Asp Leu Gin Arg Arg Ala Ala Ala He Ala Trp Arg 
1780 1785 1790 

Asn Pro Ser He Gly Leu Val Ser Asn Leu Thr Gly Lys Leu Ala Gly 
1795 1800 1805 

Glu Gly Gin Leu Ala Asn Pro Leu Tyr Trp Arg Asp His Ala Arg Asn 
1810 1815 1820 

Pro Val Arg Phe Ala Asp Gly He Gin Thr Leu Lys Asp Glu Gly Cys 
1825 1830 1835 1840 

Asp Val Phe Leu Glu lie Gly Pro Lys Pro Val Leu Leu Gly Met Gly 



1845 



1850 



1855 



Gin Lys Cys Leu Pro Asp Asp Ala Lys Gin Trp Leu Pro Ser Leu Arg 
1860 1865 1870 
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Lys Gly Arg Asp Glu Trp Glu Thr He Leu Ser Ser Val Ala Thr Leu 
1875 1880 1885 

Tyr Gin Gly Gly Phe Asp He Asp Trp Gin Glu Phe Asp Arg Pro Tyr 
1890 1895 1900 

Ser Arg Arg Arg Val Ala Leu Pro Ala Tyr Pro Phe Glu Arg Arg Arg 
1905 1910 1915 " 1920 

His Trp He Glu Arg Ser Ser Arg Pro Glu Pro Val Ala Val Ala Ser 
1925 1930 1935 

Gly Leu Val Gly Cys Arg Leu Ser Leu Pro Val Ala Asp Val He Phe 
1940 1945 1950 

Glu Ser Lys Leu Ser Thr Ala Ser Pro Leu Leu Ser Asp His Arg Tyr 
1955 1960 1965 

Tyr Gly Ser Val Val Ala Pro Ala Val Tyr Phe Leu Ala Met Ala Leu 
1970 1975 1980 

Glu Ala Ser Ala Glu Val Phe Gly Ala Gly Arg His Thr Leu Glu Asn 
1985 1990 1995 2000 

Val Asn Phe Ala His Pro Leu He Leu Ser Ala Glu Arg Asp Thr Ala 
2005 2010 2015 

Val Gin Leu Val Leu Ser Gin Ser Asp Asp Arg His Ala Ser Phe Arg 
2020 2025 2030 

He Leu Ser Leu Ser Asp Gly Ser Trp Asn Leu His Ala Ala Gly Asn 
2035 2040 2045 

He Ala Ala His Ala Gly Val Ala Pro Val Pro Arg Leu Val Asp Glu 
2050 2055 2060 

Arg Arg Pro Ala Val Asp Gly Asp Thr Tyr Tyr Ser Leu Leu Arg His 
2065 207.0 2075 2080 

Leu Glu He Glu Leu Gly Pro Ser Tyr Arg Arg He Gin Arg He His 
2085 2090 2095 

Phe Gly Glu Gin Glu Ala Leu Ala Ala He Asp Ser Ala Thr Pro Leu 
2100 2105 2110 

Asn Pro Arg Cys Glu Leu Ala Glu Ala Gly Leu Gin Leu Leu Ser Ala 
2115 2120 2125 

Ala Ala Ser Pro Ala Leu Ala Asp Gly Ala Glu His Pro He Phe Ala 
2130 2135 2140 
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Pro Leu Gly He Asp Arg Val Cy3 Phe Tyr Gly Ser Leu Glu Gly Ala 
2145 2150 2155 2160 

Val Trp Gly Ala Ala Gin He Leu Arg His Ser Pro Asp Gly Phe Thr 
2165 2170 2175 

Gly Glu Ala Gin Leu Leu Asp Ser Glu Gly Cys Val Leu Gly Glu Leu 
2180 2185 2190 

Gin Gly Val Ser Phe Arg Arg Val Thr Arg Ala Trp Ala Gin Arg Ser 
2195 2200 2205 

Glu Arg Lys Pro Glu Leu Tyr Glu Val Glu Trp Arg Pro Glu Pro Leu 
2210 2215 2220 

Arg Gin Pro Ser Arg Thr Leu Gin Pro Gly Ala Trp Leu He Leu Ala 
2225 2230 2235 2240 

Asp Ser Gly Gly Ala Ala Arg Ala Leu Ala Asp Ala Leu Thr Ala Gin 
2245 2250 2255 

Gly Glu Met Cys Val Thr Val Pro Pro Ala Gly Glu Tyr Met Ser Leu 
2260 2265 2270 

Val Gly Glu Arg Asp Trp Arg Gly He Val Asn Leu Tyr Ser Leu Asp 
2275 2280 2285 

Asp Tyr Glu Leu Gly Cys Arg Ser Thr Leu Ala Leu Val Lys Ser Leu 
2290 2295 2300 



Lys Ser Gly Pro Arg Leu Trp Leu 
2305 2310 

Ser Ala Val His Asn Pro Met Gin 
2325 



Val Thr Ala Gly Ala Gin Ala Thr 
2315 2320 

Ala Ala Leu Trp Gly Phe Gly Arg 
2330 2335 



Val He Ala Arg Glu His Pro Asp Leu Trp Gly Gly Leu He Asp Leu 
2340 2345 2350 

Asp Pro Asp Asp Ala His Ala Ser Ala Ala Gly Ala Ala Ala Gin Met 
2355 2360 2365 

Arg Asp Phe Asp Gly Glu Asp Gin Ser Ala Trp Arg Ser Asn Arg Arg 
2370 2375 2380 

Tyr Val Pro Arg Leu Thr Arg Arg Pro Ser Ala Arg Ala Ala Val Arg 
2385 2390 2395 2400 



Leu Val Ser Gly Ala Thr Tyr Leu He Thr Gly Gly Leu Gly Ala Leu 
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2405 



2410 



2415 



Gly Leu Thr Val Ala Lys Trp Met Val Glu His Gly Ala Thr Arg Val 
2420 2425 2430 

Val Leu Ala Gly Arg Arg Pro Pro Asn Glu Glu Gin Gin Arg Val Leu 
2435 2440 2445 

Gin Gin He Gly Ala Thr Ala Glu Thr Val Asp Val Ser Arg Glu Glu 
2450 2455 2460 

Glu Val Ala Asp Leu He Arg Arg He His Thr Glu Thr Ser Pro Leu 
2465 2470 2475 2480 

Arg Gly Val He His Ala Ala Gly Val Leu Asp Asp Gly Val Leu Leu 
2485 2490 2495 

Asn Gin Asp Trp Thr Arg lie Ala Ser Val Met Ala Pro Lys Ala Glu 
2500 2505 2510 

Gly Ala Val His Leu His His His Thr Arg Asp Leu Pro Leu Asp Phe 
2515 2520 2525 

Phe Val Leu Phe Ser Ser Ala Ser Ser Leu Leu Gly Pro Ala Gly Gin 
2530 2535 2540 

Ala Gly Tyr Ala Ala Ala Asn Ala Val Leu Asp Ala Leu Ala His His 
2545 2550 2555 2560 

Arg Arg Gly Leu Gly Leu Pro Ala Thr Ser He Asn Trp Gly Arg Trp 
2565 2570 2575 

Ser Gly Ala Gly Met Ala Ala Arg Thr Ser Gin Ser Met Ala Gly Val 
2580 2585 2590 

Ala Ser Leu Ser Val Asp Glu Gly Leu His He Leu Glu Ala Val Leu 
2595 2600 2605 

His Glu Cys Pro He Gin He Ala Ala Leu Pro Ala Gly Ser He Thr 
2610 2615 2620 

Gly Glu Leu Leu Arg Pro Ala Ala Leu Pro Ser Pro Gin Leu Arg Thr 
2625 2630 2635 2640 

Arg Leu Asn Glu Ala Thr Pro Arg Gin Arg Glu Ala He Leu He Ala 



2645 



2650 



2655 



His He 



Arg Glu Ser Leu Ala Arg Phe Val Gly He 
2660 2665 



Ala Thr Ser Thr 
2670 
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Pro Leu Asp Pro Gin Gin Pro Leu Gly Glu Leu Gly Leu Asp Ser Leu 
2675 2680 2685 

Met Ala lie Glu Leu Arg Asn Ser Leu Ser Gin Ser Leu Gly Gin Pro 
2690 2695 2700 

Leu Pro Ala Ser Leu Leu Phe Asp Tyr Pro Ser Leu Asp Ala lie Val 
2705 2710 2715 2720 

Ser Tyr Val Leu His Ala Val Phe Pro Pro Glu Ala Ser Pro Val Glu 
2725 2730 2735 

Ala Pro Glu Phe Glu Asn Leu Ala Arg Glu Glu Leu Glu Ala Leu Leu 
2740 2745 2750 

Asp Ser Arg Leu Ala Gin Val Asp Gin Trp Leu Glu Thr Gin 
2755 2760 2765 



<210> 123 
<211> 1763 
<212> PRT 
<213> bacterie 

<400> 123 

Met Ser Gly Ser Asp Asp Leu Ser Lys Leu Arg Arg Ala Val lie Ala 
15 10 15 

Leu Asp Lys Val Gin Lys Arg lie Asp Gin Leu Glu Ser Ala Arg Ser 
20 25 30 

Glu Pro He Ala Leu He Gly Ala Gly Cys Arg Phe Pro Gly Ala Ser 
35 40 45 

Asn Leu Asp Ala Tyr Trp Ser Leu Leu Arg Glu Gly Arg Ser Ala Val 
50 55 60 

Arg Glu Val Pro Pro Asp Arg Trp Asp He Asp Ala Tyr Tyr Asp Pro 
65 70 75 80 

Asp Pro Gly Ala Thr Gly Arg Met Tyr Thr Arg Tyr Gly Gly Phe He 
85 90 95 

Asp Gin Val Asp Arg Phe Asp Ala Arg Phe Phe Gly He Ala Pro Arg 
100 105 110 



Glu Ala 



He Ser Leu Asp Pro Gin Gin Arg Leu Leu 
115 120 



Leu Glu Val Thr 
125 
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Trp Glu Ala lie Glu Asn Ala Gly Leu Pro Pro Asp Arg Leu Ala Gly 
130 135 140 

Ser Arg Thr Gly Val Phe Met Gly lie Phe Ser Asn Asp Tyr Tyr Asn 
145 150 155 ' 160 

Leu Gin Met Arg Gly Gly Asp Ala His lie Asp Ala Tyr Thr Gly Thr 
165 170 175 

Gly Asn Thr Ala Ser Val Ala Ala Gly Arg Leu Ser Tyr lie Leu Gly 
180 185 190 

Leu Gin Gly Pro Asn Met Ala He Asp Thr Ala Cys Ser Ser Ser Leu 
195 200 205 

Val Ala Val His Leu Ala Cys Gin Ser Leu Arg Ser Gly Glu Ser Asp 
210 215 220 

Leu Ala Leu Ala Gly Gly Val Asn Leu He Leu Ser Pro Asp Arg Thr 
225 230 235 240 

He Tyr Phe Cys Lys Leu Lys Ala Met Ala Ala Asp Gly Arg Cys Lys 
245 250 255 

Ala Phe Asp Ala Ala Ala Asp Gly Tyr Val Arg Gly Glu Gly Cys Gly 
260 265 270 

Val Val Val Leu Lys Arg Leu Ser Asp Ala Leu Arg Asp Arg Asp Pro 
275 280 285 

Val Met Ala Val He Arg Gly Thr Ala He Asn Gin Asp Gly Arg Ser 
290 295 300 

Asn Gly Leu Thr Ala Pro Asn Gly Pro Ala Gin Glu Ala Val He Arg 
305 310 315 320 

Gin Ala Val Gly Asp Ala Arg Leu Gin Thr Leu Asp Val Ser Tyr Val 
325 330 335 

Glu Ala His Gly Thr Gly Thr Pro Leu Gly Asp Pro He Glu Ala Gly 
340 345 350 

Ala Leu Ala Ala Ala Leu Gly Ala Gly Arg Thr Asn Gly Asn Lys Leu 
355 360 365 

Lys Leu Gly Ser Val Lys Thr Asn Phe Gly His Leu Glu Ala Ala Ala 
370 375 380 



Gly Val Ala Ala Leu He Lys Val Ala Leu Met Leu Gin Asn Glu Ala 
385 390 395 400 
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lie Pro Pro His Leu Asn Leu Thr Thr Pro Ser Pro His lie Asp Trp 
405 410 415 

Asn Thr Leu Pro Leu Glu lie Pro Ala Arg Leu Thr Pro Trp Pro Val 
420 425 430 

Ala Pro Gly Gly Arg Arg Val Ala Gly He Asn Ser Phe Gly Leu Ser 
435 440 445 

Gly Thr Asn Ala His Val Leu He Glu Gin Ala Pro Gin Gin Ala Ala 
450 455 460 

Ser Ser Thr Pro Ala Pro Tyr Leu Leu Pro Leu Ser Ala Arg Ser Pro 
465 470 475 480 

Glu Ala Leu Arg Asp Leu Ala Arg Ala Tyr Arg Asp Val Val Asn Asp 
485 490 495 

Asn Pro Ala Asp Thr Cys Tyr Thr Ala Cys Ala Arg Arg Thr Ser Tyr 
500 505 510 

Glu His Arg Ala Ala Phe Thr Gly Thr Asn Ala Gin Asp Leu Met Ala 
515 520 525 

Gly Leu Asp Ser Phe Leu Ala Gly Asn Pro Asn Arg Asp Thr Ala Thr 
530 535 540 

Gly Phe Val Pro Arg Gly Gin Lys Arg Lys Val Val Phe Val Leu Pro 
545 550 555 560 

Gly Gin Gly Ser Gin Trp Pro Gly Met Gly Arg Asp Leu Met Ala Ser 
565 570 575 

Glu Pro Val Phe Arg Ala Ala He Glu Glu Cys Gly Arg Ala Met Gin 
580 585 590 

Pro Tyr Val Asp Trp Ser Leu Thr Gin Glu Leu Gin Gly Pro Leu Asp 
595 600 605 

Arg He Asp Val He Gin Pro Ala Leu Phe Ala Val Gly Val Ala Leu 
610 615 620 

Ala Gly Leu Trp Arg His Trp Gly He Glu Pro Asp Ala Val He Gly 
625 630 635 640 

His Ser Met Gly Glu Val Ala Ala Ala His He Ala Gly Ala Leu Thr 
645 650 655 



Leu Asp Glu Ala Ala Arg Val He Cys Leu Arg Ser Arg Met Leu Ala 
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660 



665 



670 



Gly Val Arg Gly Gin Gly Glu Met Ala Val Val Glu Leu Ala Leu Asp 
675 680 685 

Glu Ala He Ala Ala He Ala Gly Arg Ser Asp Arg Val Ser He Ala 
690 695 700 

Ala Ser Asn Ser Pro Arg Ser Thr Val Leu Ser Gly Asp Ser Ala Ala 
705 710 715 720 

Leu Gly Glu Leu Leu Arg Glu Leu Glu Ala Lys Asp Val Phe Cys Arg 
725 730 735 

Arg Val Lys Val Asp He Ala Ser His Ser His Leu Met Asp Ser Val 
740 745 750 

Cys Ala Ala Leu Pro Gly Val Val Gly Ala Leu Gin Pro Arg Pro Ala 
755 760 765 

Ala Leu Gly Met Tyr Ser Thr Val Thr Gly Ala Ala He Ser Gly Glu 
770 775 780 

Glu Leu Val Ser Ala Tyr Trp Ala Arg Asn Leu Arg Gin Pro Val Met 
785 790 795 800 

Leu Ser Thr Ala Val Ala Ala Ala Ala Ala Gly Gly His Asp Val Phe 
805 810 815 

Leu Glu Leu Ser Pro His Pro Leu Leu Val Gin Pro He Gin Glu Thr 
820 825 830 

Leu Gly Asp Arg Ala Ala He Ala Ala Ala Ser Leu Arg Arg Asp Glu 
835 840 845 

Asp Gly Asn Leu Ala Leu Arg Arg Thr Leu Gly Ala Leu Leu Thr Asn 
850 855 860 

Gly Val Thr Pro Asp Trp Ser Arg He Tyr Pro Asn Gly Gly Gin Thr 
865 870 875 880 

Arg Arg Leu Pro Asn Tyr Pro Trp Gin Arg Glu Arg Tyr Trp He Asp 
885 890 895 

He Arg Pro Pro Gin Val Glu Ser Gin Ala Leu Pro Gly Arg Arg He 



900 



905 



910 



Pro Ser Pro Leu Pro Glu Met Gin Phe Glu Ser Thr Val Glu Ala Lys 
915 920 925 
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Asp Phe Ala Asp His Arg Leu His Asp Val He Val Thr Pro Gly Ala 
930 935 940 

Trp His Leu Ala Met Ala Leu Ala Ala Ala Arg Gin Gly Leu Gly Ala 
945 950 955 960 

Gly Pro His His Val Glu His Val Ser Leu Thr Gly Ala Leu Thr Leu 
965 970 975 

Pro Glu Asn Asp Ala Ala Arg Gin Val Gin Leu Val Leu Arg His Glu 
980 985 990 

Glu Gly Gly Gly Ala Ser Phe Arg He Tyr Ser Arg Glu Asp Ser Trp 
995 1000 1005 

Lys Leu His Ser Glu Gly Met Leu Gin Ala Gly Asp Ser Thr Ala Ser 
1010 1015 1020 

He Asp Leu Asp Ala He Arg Ala Arg Cys Thr Ala Glu Leu Thr Ala 
1025 1030 1035 1040 

Asp Ala Phe Tyr Ser Arg Leu Trp Asp Arg Gly Tyr His Phe Gly Pro 
1045 1050 1055 

Thr Phe Arg Thr He Gly Pro He Trp Arg Gly Asn Gly Glu Val Leu 
1060 1065 1070 

Cys Arg Val Asp He Pro Leu Thr Glu Met Gin Thr He Asp Cys Cys 
1075 1080 1085 

Leu Gin Leu Pro Ala Ala Leu Val His His Asp Asp Leu Lys Asp Val 
1090 1095 1100 

His Val Pro Val Gly Leu Asp Arg Phe Ser Leu Ala Glu Val Pro Thr 
1105 1110 1115 1120 

Gly Pro Val Trp Gly Tyr Ala Val Leu Arg Pro Asp Ser Thr Val Asp 
1125 1130 " 1135 

Val Arg Leu Val Thr Gly Thr Gly Ser Val Val Ala Glu Leu Val Gly 
1140 1145 1150 

Leu Gin Ser Arg Val Ala His Ser Gly Gin Leu Gly Glu Ser Glu He 
1155 1160 H65 

Pro Thr Trp Thr Val Gin Trp Thr Ala Ser Val Arg Arg Gly Asp Ala 
1170 1175 1180 



Asn Ala Gly Asn Ala Gly Gly Pro Trp Leu Val He Gly Glu Pro Ala 
1185 1190 1195 1200 
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He Ala Glu Thr Leu Gin Lys Arg Gly Gin Thr Cys Arg Thr Ala Asp 
1205 1210 1215 

Thr Cys Ser Gly Pro Pro Cys Arg Gin He Val Tyr Cys Pro Ser Pro 
1220 1225 1230 

Arg He Asp Asp Leu Leu Ser Val Leu Arg Ser He Val Gin Ala Gly 
1235 1240 1245 

Trp Pro Glu Pro Pro Arg Leu Trp Leu Leu Thr Arg Gly Ser Ala Ala 
1250 1255 1260 

Val Leu Asn Ser Asp Lys Asp He Asp He Arg Gin Ala Trp Leu His 
1265 1270 1275 1280 

Gly He Gly Arg Thr He Ala Tyr Glu His Pro Glu Leu Arg Cys Thr 
1285 1290 1295 

Leu Val Asp Leu Asp Ala His Ser Asn Asp Cys Gly His Leu Ala Thr 
1300 1305 1310 

Leu Met Leu Ser Asn He Ala Glu Asp Gin Val Ala He Arg Gin Gly 
1315 1320 1325 

Thr Val Trp Ala Pro Arg Leu Ser Leu His Lys He Pro Ser Ala Pro 
1330 1335 1340 

Asp Val Ala Phe Arg Ala Asp Ala Thr Tyr Leu He Thr Gly Gly Leu 
1345 1350 1355 1360 

Gly Gly Leu Gly Leu Gin Val Ala Gly Trp Leu Ala Ala Ala Gly Ala 
1365 1370 1375 

Arg His Leu Val Leu Leu Gly Arg Ser Glu Arg Pro Arg Pro Gin Leu 
1380 1385 1390 

Glu Gly Val Asn Val Lys He He His Ala Asp Val Ala Asp Arg Gin 
1395 1400 1405 

Gin Leu Ser Asp Ala Leu Ala He He Asp Arg Asp Met Pro Pro Leu 
1410 1415 1420 

Arg Gly Val Phe His Leu Ala Gly Thr Leu Ala Asp Gly Met Leu Leu 
1425 1430 1435 1440 

Asn Leu Thr Thr Glu Arg Phe Glu Ala Ala Met Ala Pro Lys Val Ala 
1445 1450 1455 



Gly Ala Trp Asn Leu His Glu Leu Thr Ala Gly Arg Pro Leu Asp His 
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1460 1465 1470 

Phe Val Leu Phe Ser Ser Ala Ser Ala Thr Val Gly Ser Pro Gly Gin 
1475 1480 1485 

Gly Asn Tyr Ala Ala Gly Asn Ser Phe Leu Asp Ala Leu Ala His Leu 
1490 1495 1500 

Arg Arg Ala Gin Gly Leu Pro Ala Val Ser He Ala Trp Gly Pro Trp 
1505 1510 1515 " 1520 

Thr Gin Val Gly Leu Ala Ala Gin Ala Asn Arg Gly Asp Arg Leu Ala 
1525 1530 * * 1535 

Ala Arg Gly He Ser Val He Gin Pro Gin Gin Gly Leu Arg Ala Leu 
1540 1545 1550 

Tyr Lys Ala Leu Thr Gin He Arg Pro His Val Ala Val Met Asn Phe 
1555 1560 1565 

Asp He Ala Gin Trp Leu Arg Tyr Tyr Pro Ser Ala Ala Ser Met Ser 
1570 1575 1580 

Leu Leu Ala Gly He Ala Pro Ala Ala Ala Asp Thr Lys Pro Ala Ala 
1585 1590 1595 1600 

Asp Met Arg Ser Glu Leu Leu Ala Val Pro Ala Gly Arg Gin Arg Arg 
1605 1610 1615 

Ala Arg Leu Glu Thr Leu Leu Met His Glu Ala Gly His Val Leu Arg 
1620 1625 1630 

Phe Asp Pro Ala Lys Leu Asp Gly Arg Ala Thr Leu Gly Asp Leu Gly 
1635 1640 1645 

Phe Asp Ser Leu Met Ala Leu Glu Phe Arg Asn Arg Leu Glu Ala Gly 
1650 1655 1660 

Leu Arg Val Lys Leu Ser Ala Thr Leu He Trp Arg Tyr Pro Thr Phe 
1665 1670 1675 1680 

Ser Ala Leu Ala Gin His Leu Ala Asp Lys Leu Gly Leu Pro Leu Glu 
1685 1690 1695 

Ser Met Ala Gly Asn Ala Glu Pro Ser Thr Val Ala Ala Val Ala Thr 
1700 1705 1710 

Leu Ala Thr Val Gly Thr Ala Ala Gly Glu Asp Arg Ser Pro Ala Ala 
1715 1720 1725 



WO 01/40497 



126 



PCT/FROO/03311 



Ala Asp Asp Leu Asp Ala Val Ala Asn Gin lie Ala Gly Leu Gly Asp 
1730 1735 1740 

Lys Glu He Glu Ala Leu Leu Lys Gin Lys Phe Ala His Phe Ser Gly 
1745 1750 1755 1760 

Ala Ser Glu 



<210> 124 
<211> 2153 
<212> PRT 
<213> bacterie. 

<400> 124 

Met Ser Ser He Ser Glu Arg Phe Pro Asn Leu Thr Pro Leu Gin Gin 
15 10 15 

Ala Tyr Leu Thr Leu Glu His Met Gin Arg Arg Leu Asp Ala Ala Glu 
20 ,25 30 

Arg Asp Ala Arg Glu Pro He Ala He Val Gly Leu Gly Cys Arg Phe 
35 40 45 

Pro Gly Gly Asp Gly Pro Asp Glu Phe Trp Gin Met Leu Arg Ser Gly 
50 55 60 

Val Asp Ala lie Arg Glu Val Pro Pro Gly Arg Trp Asp Glu Glu Ser 
65 70 75 80 

Val Arg Arg He Leu Lys Ser Leu Asn Pro Ala Thr Pro Val Lys He 
85 90 95 

Gin Ala Gly Phe Leu Asp Ser lie Asp Gly Phe Asp Asn Asp Phe Phe 
100 105 no 

Gly He Ser Pro Arg Glu Ala Val Ser He Asp Pro Gin Gin Arg Leu 
115 120 125 

Leu Leu Glu Val Ala Trp Glu Ala Leu Glu Asp Ala Gly Gin Thr Met 
130 135 140 

Glu Gly Leu Ser Gly Ser Arg Thr Gly Val Phe Val Gly He His Ser 
145 150 155 160 

Gin Ser Ser Asp Tyr Phe Trp Met Gin Thr Ala Asp Gly Ala Arg He 
165 170 175 
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Asp Pro Tyr Thr Ala Thr Gly Thr Ala His Ser Val He Ala Gly Arg 
180 185 190 

Leu Ser Tyr Leu Leu Asn Leu Gin Gly Pro Ser He Ala Leu Asp Thr 
195 200 205 

Ala Cys Ser Ser Ser Leu Ala Ala Val His Leu Ala Cys Gin Ser Leu 
210 215 220 

Arg Ser Gly Glu Cys Thr Leu Ala Val Ala Gly Gly Val Asn Leu Arg 
225 230 235 240 

Phe Ser Pro Glu Phe Met Tyr Ala Thr Ser Lys Met Gly Thr Ala Ser 
245 250 255 

Pro Ser Gly Arg Cys Arg Ala Phe Asp Ala Ala Ala Asp Gly He Val 
260 265 270 

Phe Gly Glu Gly Cys Gly Val Val Val Leu Lys Arg Leu Ser Asp Ala 
275 280 285 

Leu Ala Ala Gly Asp Arg Val Trp Ala Val Val Arg Gly Ser Ala Val 
290 295 300 

Asn Gin Asp Gly Arg Ser Ala Gly Leu Thr Ala Pro Asn Val Val Ser 
305 310 315 320 

Gin Gin Val Val He Arg Ser Ala Leu Ala Asn Ala Gly Val Ala Ala 
325 330 335 

Gin Gin He Gly Tyr He Glu Ala His Gly Thr Gly Thr Pro Leu Gly 
340 345 350 

Asp Pro He Glu He Glu Ala Leu Ala Glu Thr Val Gly Leu Pro Arg 
355 360 365 

Pro Val Gly Asp Val Cys Ala Val Gly Ser Leu Lys Ser Asn He Gly 
370 375 380 

His Leu Glu Gly Ala Ala Gly He Ala Gly Leu He Lys Ala Val Leu 
385 390 395 400 

Ala Leu Ser His Glu Thr He Pro Pro Ser Leu His Val Arg Gin Leu 
405 410 415 

Asn Pro Asn He Arg Leu Glu Gly Thr Ser Leu Asp He Val Lys Glu 
420 425 430 



Val Arg Pro Trp Pro Ala Gly Ser Arg Arg Arg Phe Ala Gly Val Ser 
435 440 445 
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Ala Phe Gly Trp Ser Gly Thr Asn Ala His Val Val Leu Glu Glu Ala 
450 455 460 



Ala Pro Thr Gly Arg Gly Glu Ala Ala Ser Gly Phe His Ser Arg Pro 
465 470 475 480 



Pro Ala Ala Ala Ala Arg Ala Ala Val Pro Leu Ala Glu Gly Asp Thr 
485 490 495 



Gly Gly Thr Pro Asp lie Ala Gly Thr Pro Asp Thr Ala Asp Thr Pro 
500 505 510 



Asp Thr Ala Asp Thr Pro Asp He Ala Gly Thr Ala Gly Thr Ala Ala 
515 520 525 



Thr Thr Gly He Ala Asp Ala Met Tyr Val Leu Pro Leu Ser Ala His 
530 535 540 



Gly Ala Asp Glu Leu Arg Arg. Val Ala Arg Ala Tyr Gly Glu Leu Leu 
545 550 555 560 



Thr Ala Ser His Ala Pro Ser Leu Arg Asp Leu Cys Tyr Thr Ala Ala 
565 570 575 



Val Arg Arg Thr His His Arg Cys Arg Leu Ala Val Ser Gly Arg Thr 
580 585 590 



Ala Glu Glu Leu Ala Ala Gin Leu Gin Gly He Thr He Pro Ser Gin 
595 600 605 



Arg Arg Lys Thr Val Phe Val Phe Ser Gly Gin Gly Ser Gin Trp He 
610 615 620 



Gly Met Gly Arg Ser Trp Met Asp Arg Glu Pro Val He Arg Glu Ala 
625 630 635 640 



Leu Glu Arg Cys Glu Ala Ala Met Arg Pro Tyr Val Asp Trp Ser Leu 
645 650 655 



Lys Glu Glu Leu Ala Lys Leu Asp Arg Val Glu Val He Gin Pro Ala 
660 665 670 



Leu Phe Ala Leu Gin Val Ala He Ala Ala Leu Trp Arg Ser Trp Gly 
675 680 685 



He Glu Pro Asp Ala Val He Gly His Ser Met Gly Glu Val Ala Ala 
690 695 700 



Ala His Val Ala Gly Ala Leu Thr Leu Gin Asp Ala Ala Arg He He 
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705 



710 



715 



720 



Cys Ser Arg Ser Arg Leu Leu Ser Arg lie Ser Gly Leu Gly Gly Met 
725 730 735 

Ala Met Val Glu Leu Pro Leu Ala Glu Cys Glu Ala Val Leu Ser Thr 
740 745 750 

Tyr Thr Glu Arg Leu Ser Pro Ala Val Ser Asn Gly Pro Asn Ser Thr 
755 760 765 

Val He Ser Gly Glu Val Glu Ala Leu Ala Glu Val Val Ala Thr Leu 
770 775 780 

Glu Arg Arg Gly Val Ser Cys Arg Pro Val Lys Val Asp Phe Ala Ala 
785 790 795 800 

His Ser Pro Gin Val Asp Pro Leu Cys Asp Glu Leu Leu Gin Ser Leu 
805 810 815 

Asp Gly He Gin Pro Arg Pro Ala Thr He Pro Phe Tyr Ser Thr Val 
820 825 830 

Thr Gly Ala Thr Leu Glu Thr Thr Ser Leu Asp Ser Thr Tyr Trp Ala 
835 840 845 

Arg Asn Leu Arg Ser Pro Val Leu Phe Trp Gin Gly He Arg His Leu 
850 855 860 

Ala Asp Ser Gly His Asp Val Phe Leu Glu He Ser Pro His Pro He 
865 870 875 880 

Leu Leu Pro Ala He Gly Gly Asn Ala Ala Leu Val Pro Ser Leu Arg 
885 890 895 

Arg Asp Gin Asp Glu Arg Gly Ser Met Leu Thr Ser Leu Gly Ala Leu 
900 905 910 

Tyr Glu Ala Gly His Thr Val Ala Trp Arg Thr Val Tyr Pro Ser Gly 
915 920 925 

Asn Cys Val Arg Leu Pro Arg Tyr Pro Trp Gin Arg Arg Arg Phe Trp 
930 935 940 

Leu Asp Ala Ser Pro Ala Arg His Ala He Thr Leu Gly Asn Pro Leu 
945 950 ~ 955 960 

Leu Gly Lys Arg Val Glu Ala Ser Thr Gin Pro Gly Thr Phe Phe Trp 



965 



970 



975 
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Glu Thr Glu Leu Ser Leu Ala Ser Val Pro Trp Leu Ala Asp His Arg 
980 985 ' 990 

Val Gin Gly Glu Val Val Leu Pro Ala Thr Ala Tyr Leu Asp Met Ala 
995 1000 1005 

Leu Ala Gly Thr Ser Glu Thr Phe Gly Glu Ser Pro Cys Val Leu Glu 
1010 1015 1020 

His Val Thr Phe Thr Gin Met Leu He Val Pro Arg Asp Gly Ser Met 
1025 1030 1035 1040 

Thr Leu Gin Leu Ala He Ala Val Asp Arg Pro Gly Met Ala Ser Phe 
1045 1050 1055 

Arg He Ser Ser Arg Gin Ala Ser Thr Trp Val Leu His Ala Ser Gly 
1060 1065 1070 

Asp He Arg Gin Thr Pro Ala Asp Ala Ser Thr Val Pro Pro Asp Ser 
1075 1080 1085 

Ala Glu Thr Val Gin Ala Arg Cys Pro Thr Val Val Pro Ala Ala Glu 
1090 1095 1100 

Leu Trp Arg Gin Met Ala Glu His Gly Val Glu Tyr Gly Pro Ala Phe 
1105 1110 1115 1120 

Arg Ala Leu Glu Gin He Trp Ser Cys Pro Gly Glu Ala He Gly Arg 
1125 1130 1135 

Leu Arg Ser Ser Glu Thr Arg Ser Thr Ala Pro Ala Phe Leu Asp Ala 
1140 1145 1150 

Cys Leu Gin He He Ala Ala Ala Phe Gly Pro Ala Gly Gly Thr Trp 
1155 1160 1165 

Leu Pro Ala Gly He Asp Arg Met Arg Trp Leu His Pro Ala Arg Ser 
1170 1175 1180 

Val Val Trp Thr His Ala Arg Leu Glu Gly Pro He Ala Asp Leu Ser 
1185 1190 1195 1200 

Leu Leu Asp Gly Glu Gly Gin Leu Val Ala Arg He Glu Gly Leu Arg 
1205 1210 1215 

Leu Gin Arg Leu Asp Ala Ser Glu Arg He Asp Met Arg Gly Trp Leu 
1220 1225 1230 

His Glu Leu Arg Trp Val Ala Gin Pro His Ala Ala Ala Glu Pro Pro 
1235 1240 1245 
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Ala Ala Arg Ala Ala Arg Ser Trp Leu He Val Gly Ala Val Asp Ser 
1250 1255 1260 

Ala Leu Thr Ala Trp Leu Arg Ala Thr Gly Asn Arg Val Thr Gin Thr 
1265 1270 1275 1280 

Ser Pro Glu Lys Leu Asp Glu Leu Gin Pro Pro Leu Glu Glu He Val 
1285 1290 1295 

Phe Leu Leu Glu His Glu Pro Ser Cys Asp Arg He Leu His Leu Leu 
1300 1305 1310 

Gin Thr Leu Gly Arg Thr Pro Trp Arg Gin Ala Pro Arg Leu Trp Leu 
1315 1320 1325 

Val Thr Arg Gly Ala Gin Pro Val Asp Gly Gin He Leu Gin Ala Gly 
1330 1335 1340 

He Ala Gin Ala Pro Phe Trp Gly Leu Gly Arg Thr Val His Tyr Glu 
1345 1350 1355 1360 

His Pro Glu Leu Asn Cys Thr Leu He Asp Leu Asp Pro Ala Gly Gly 
1365 . 1370 1375 

Glu Glu Glu Leu Leu His Glu Leu Leu Thr Asn Asn Gly Glu Asn Gin 
1380 1385 1390 

He Ala Phe Arg Gly Gly Ala Arg Tyr Val Ala Arg Val Ala Arg His 
1395 1400 1405 

Glu Ala Asp Met Gin Pro Ala Met Phe Lys Ala Gly Asp Arg Pro Phe 
1410 1415 1420 

Arg Leu Glu He Asp Ala Pro Gly Val Leu Asp Arg Leu Arg Leu Arg 
1425 1430 1435 1440 

Ala Thr Ser Arg Arg Pro Pro Gin Ala Gly Glu Val Glu He Glu Val 
1445 1450 1455 

Cys Ala Ala Gly Leu Asn Phe Leu Asp Val Leu Leu Ala Leu Gly Val 
1460 1465 1470 

Met Pro Asp Asp Ala Pro Gly Ala He Ala Gly Ser Pro Arg Leu Gly 
1475 1480 1485 

Gly Glu Cys Ser Gly Arg He Val Ala Met Gly Lys Gly Val Thr Asp 
1490 1495 1500 

Phe Arg He Gly Asp Glu Val Val Ala Leu Ala Pro Cys Ser Phe Gly 



PCTYFR00/03311 



Arg Phe Val Thr Thr Pro Ala Phe Arg Val Ala Leu Lys Pro Ala Asn 
1525 1530 1535 

lie Pro Ala Glu Gin Ala Ala Ala Leu Pro He Ala Phe Leu Thr Ala 
1540 1545 1550 

Asp Tyr Ala Leu Ser Arg Ala Ala Arg Leu Ala Pro Gly Glu Arg Val 
1555 1560 1565 

Leu He His Ala Ala Thr Gly Gly Val Gly Leu Ala Ala He Gin He 
1570 1575 1580 

Ala Gin Arg Ala Gly Ala Glu He .Phe Ala Thr Ala Gly Ser Pro Glu 
1585 1590 1595 1600 

Lys Arg Ala Tyr Leu Arg Ser Leu Gly He Ala His Val Ser Asp Ser 
1605 1610 1615 

Arg Ser Met Ala Phe Val Asp Asp He Arg Asn Trp Thr Asn Gin Glu 
1620 1625 1630 

Gly Val Asp Val Val Leu Asn Ser Leu Ser Gly Asp Leu Leu Glu Ala 
1635 1640 1645 

Ser Phe Asp Leu Leu Arg Asp His Gly Arg Phe He Glu He Gly Lys 
1650 1655 1660 

Arg Asp Tyr Tyr Ala Gly Arg Lys Leu Gly Leu Arg Pro Phe Leu Lys 
1665 1670 1675 1680 

Asn Leu Ser Tyr Thr Leu Val Asp Leu Leu Gly Met Ser Leu Lys Arg 
1685 1690 1695 

Pro Ala Leu Thr Arg Glu Leu Leu Gin Glu Met Val Ala Lys Phe Glu 
1700 1705 1710 

Ser Glu Thr Trp Arg Pro Leu Glu Thr Arg Val Thr Thr He Thr Glu 
1715 1720 1725 

Ser Val Glu Ala Phe Arg Thr Met Ala Gin Ala Arg His He Gly Lys 
1730 1735 1740 

He Val Met Ala Met Arg Asp Cys Ala Asn Ala Pro He Ala Pro Leu 
1745 1750 1755 1760 

Arg Ser Ala Phe Asp Ser Glu Gly Thr Tyr Leu He Thr Gly Gly Leu 
1765 1770 1775 
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Gly Gly Leu Gly Leu Thr Val Ala Arg Trp Met lie Gly Arg Gly Ala 
1780 1785 1790 

Arg Arg Leu Val Leu Leu Ser Arg Arg Ala Pro Ser Pro Glu Val Gin 
1795 1800 1805 

Gin Ala He Ala Val Met Asp Ala Asp Val Arg Thr Val Gin Ala Asp 
1810 1815 1820 

Val Ser Gin Arg Asp Glu Leu Glu Arg Val He Ser Ser lie Asp Arg 
1825 1830 1835 1840 

I Leu Arg Gly Val He His Ala Ala Ala Val Leu Asp Asp Ala Leu Leu 
1845 1850 1855 

Leu Asn Gin Thr Glu Ala His Phe Arg Asn Val Met Ala Ala Lys He 
1860 1865 1870 

Asp Gly Ala Trp Asn Leu His Leu Leu Thr Arg Asp Cys Pro Leu Asp 
1875 1880 1885 

His Phe Val Leu Phe Ser Ser Ala Ala Gly Leu Leu Gly Ala Pro Ala 
1890 1895 1900 

Gin Gly Asn Tyr Ala Ala Ala Asn Ala Phe Leu Asp Ala Leu Ala Tyr 
1905 1910 1915 1920 

Tyr Arg Lys Ala Gin Gly Leu Pro Ala Leu Ser He Gly Trp Gly Ala 
1925 1930 1935 

Trp Ser Glu Val Gly Leu Ala Ala Ala Gin Asp Asn Arg Gly Ser Arg 
1940 1945 1950 



Leu Ala Leu Arg Gly Met Glu Asn Leu Thr Pro Gin His Gly Leu Ala 
1955 1960 1965 

He Leu Glu Gin Leu Leu Asn Ser Ser Ala Cys His Val Ala Ala Met 
1970 1975 1980 

Pro He Asn Val Arg Gin Trp Arg Gin Phe Tyr Pro Lys Ala Ala Gin 
1985 1990 1995 2000 

Ser Ala Leu Phe Glu Leu Leu His Asp Asp Ala Ala Ser Glu Ala Asp 
2005 2010 2015 

Ala Pro Asn Ala Leu Arg Ala Arg Leu Gin Ser Ala Glu Pro Gin Thr 
2020 2025 2030 



Arg Arg Thr Leu Leu Glu Glu His Leu Gin Gin Gin Leu Ala Arg Val 
2035 2040 2045 
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Leu Arg He Asp Ser Gin Thr He Asp Pro Leu Arg Pro Leu Lys Glu 
2050 2055 2060 

Leu Gly Phe Asp Ser Leu Met Ala Leu Glu Phe Arg Asn Arg Leu Glu 
2065 2070 2075 2080 

Leu Thr Leu Gly Leu Thr Leu Pro Ala Thr Leu He Trp Gly His Pro 
2085 2090 2095 

Thr Leu Ala Gly Leu Ala Pro His Leu Ala Ser Gin Met Gly Leu Pro 
2100 2105 2110 

Leu Val Glu Ala Gin Ala Ala Ala Ala Ala Glu Gly Asp Ser Arg Ala 
2115 2120 2125 

Met Lys Thr Ala Leu Ser Gly Leu Asp Asp Met Ser Glu Glu Ala Ala 
2130 2135 2140 

Val Ala Ala Leu Arg Gly Ala Arg Ser 
2145 2150 



<210> 125 
<211> 1695 
<212> PRT 
<213> bacterie 

<400> 125 

Met Arg Glu Lys He Ala Pro Met Ser Ser Val Lys Leu Ala Leu Leu 
15 10 15 

Ala Arg Asn Met Arg Gin Asn He Ala Gly Phe Asp Leu Val His Ala 
20 25 30 

Glu Pro He Ala He Val Gly Met Ala Cys Arg Phe Pro Gly Gly Ala 
35 40 45 

Lys Asn Pro Asp Ala Phe Trp Thr Leu Leu Lys Asn Gly Val Asp Gly 
50 55 60 

Val Thr Glu Val Pro Pro Asp Arg Trp Asn Ser Asp Gin Tyr Tyr Ser 
65 70 75 80 

Ser Asp Pro Asp Ala Pro Gly Lys Ala Tyr Ala Arg Tyr Ala Ala Phe 
85 90 95 



Leu Glu Arg He Asp 
100 



Gly Phe Asp 



Ala Glu Phe Phe Gly He 
105 110 



Ser Pro 
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Arg Glu Ala Leu Asn Met Asp Pro Gin Gin Arg Leu Leu Leu Glu Val 
115 120 125 

Cys Trp Glu Ala Ala Glu Asp Ala Gly lie Ser Pro Gly Pro Leu Ala 
130 135 140 

Gly Ser Ala Thr Gly Val Phe Ala Gly Ser Cys Ala Gin Asp Phe Gly 
145 150 155 " 160 

Leu Phe Gin Tyr Ala Asp Pro Ala Arg He Gly Ala Trp Ser Gly Ser 
165 170 175 

Gly Val Ala His Ser Met Leu Ala Asn Arg He Ser Tyr Leu Leu Asp 
180 185 190 

Leu Arg Gly Pro Ser Met Ala Val Asp Thr Ala Cys Ser Ser Ala Leu 
195 200 205 

Val Ala Val His Leu Ala Cys Gin Ser Leu Arg Arg Arg Glu Cys Asp 
210 215 220 

Ala Ala Phe Ala Gly Gly Val Asn Leu He Leu Thr Pro Glu Gly Met 
225 230 235 240 

He Ala Leu Ser Lys Ala Arg Met Leu Ala Pro Asp Gly Arg Cys Lys 
245 250 255 

Thr Phe Asp Ala Ala Ala Asp Gly Tyr Val Arg Gly Glu Gly Cys Gly 
260 265 270 

He Val Leu Leu Lys Arg Leu Ser Asp Ala Leu Ala Asp Gly Asp Ala 
275 280 285 

He Arg Ala Val He Arg Gly Ser Ala He Asn Gin Asp Gly Arg Ser 
290 295 300 

Asn Gly He Thr Ala Pro Asn Leu Gin Ala Gin Lys Ala Val Leu Gin 
305 310 315 320 

Glu Ala Val Ala Asn Ala His He Asp Pro Ser His Val Ser Leu He 
325 330 335 

Glu Ala His Gly Thr Gly Thr Ser Leu Gly Asp Pro He Glu He Glu 
340 345 350 

Ala Leu Gin Ser Val Tyr Asp Ala Pro Asp Ser Ala Pro Cys Leu Leu 
355 360 365 



Gly Ser Val Lys Thr Asn He Gly His Leu Glu Gly Ala Ala Gly He 
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Ala Gly Leu He Lys Ala Val Leu Ala Leu Gin His Arg Thr He Pro 
385 390 395 400 



Pro His Leu His Phe Arg Arg Leu Asn Pro Asn He Ser Leu Asp Gly 
405 410 415 



Ser Arg Phe Arg He Ala Thr Glu Ser Ser Pro Trp Thr Ser Glu Gly 
420 . 425 430 



Arg Pro Arg Leu Ala Gly Val Ser Ser Phe Gly Phe Gly Gly Ser Asn 
435 440 445 



Ala His Val He Leu Glu Glu Ala Pro Ala Leu Pro Leu Pro Lys Pro 
450 455 460 



Val Thr Arg Pro Gin Leu Leu Thr Leu Ser Ala Arg Thr Asp Glu Ala 
465 470 475 480 



Leu Gly Glu Leu Ala Gly His Phe Ala Glu Phe Leu Gin Ser His Pro 
485 490 495 



Asn Ala Leu Leu Ser Asp Val Cys Phe Thr Ser Gin Val Gly Arg Asp 
500 505 510 



Ala Tyr Ser His Arg Leu Ala He Thr Ala Ala Asp Ala Ala Glu Ala 
515 520 525 



Val Ala Ala Leu Ala Ala Ala Pro Arg Arg Glu Val Ser Leu Arg Arg 
530 535 540 



Arg Pro Ala He Ala Phe Leu Phe Thr Gly Gin Gly Ala Gin Tyr Ala 
545 550 555 560 



Gly Met Gly Ala Glu Leu Tyr Lys Thr Gin Pro Val Phe Arg Asp Ala 
565 570 575 



Leu Asp Arg Cys Ala Asp Trp Leu Arg Pro Gin Leu Asp Val Pro Leu 
580 585 590 



Thr Val Leu Leu Phe Glu Ser Val Ser Pro Leu His Glu Thr Ala Tyr 
595 600 605 



Thr Gin Pro Ala Met Phe Ala Leu Glu Trp Ala Leu Ala Gin Phe Trp 
610 615 620 



Leu Ser Leu Gly Val Arg Pro Asp Tyr Val Leu Gly His Ser Leu Gly 
625 630 635 640 
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Glu Tyr Val Ala Ala Cys Val Ala Gly Ala Phe Ser Val Glu Asp Gly 
645 650 655 

Leu Arg Leu Val Thr Ala Arg Gly Arg Leu Val Asn Ala Leu Pro Arg 
660 665 670 

Gly Lys Ala Val He Val His Ala Asn Pro Ser Arg He Ala Ala Leu 
675 680 685 

Ala Ala Lys Val Ala Val Ala Ala Ser Asn Ala Pro Asp Arg Thr Val 
690 695 700 

He Ser Gly Thr Ala Ala Glu He Ala Glu Ala Gin Asp Asp Leu His 
705 710 715 720 

Arg Ala Gly Val Glu Thr Arg Glu Leu Asn Val Ser His Ala Phe His 
725 730 735 

Ser Pro Leu Met Asp Pro He Leu Asp Lys Phe Glu Ala Leu Ala Gly 
740 745 750 

Ala He Ala Tyr Gin Pro Leu Ala He Pro Leu Val Ser Asn Val Ser 
755 760 765 

Gly Ala Val Leu Pro Lys Gly Thr Thr Leu Asp Ala Arg Tyr Trp Arg 
770 775 780 

Arg Gin Leu Arg Glu Thr Val Gin Phe Glu Ser Ala Met Arg Thr Leu 
785 790 795 800 

Ala Asp Arg Glu Cys Lys Leu Phe Leu Glu He Gly Pro His Pro Thr 
805 810 815 

Leu Thr Thr Leu Gly Arg Tyr Cys Leu Pro Asp Asp Gly Ala Val Trp 
820 825 830 

Leu His Ser Leu Ser Lys Gly Arg Ser Asp Trp Ser Val Leu Leu Glu 
835 840 845 

Ser Leu Gly Gly Leu Phe Thr Ala Gly Val Asn Pro Asp Trp Arg Gly 
850 855 860 

Leu Tyr Ala Gly Glu Ser Pro Ser Arg Val Ala Leu Pro Thr Tyr Pro 
865 870 875 880 

Phe Gin Arg Asp Thr Phe Ser Leu Arg Arg Val Pro Ala Arg Glu Pro 
885 890 895 

Ala Arg Gly Gly Met Leu Gly Ala Arg Leu Asn Ser Ala Leu Gly Asp 
900 905 910 
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Val He Phe Glu Asn Ser Leu Thr Thr Glu Thr Pro Leu Leu His Glu 
915 920 925 

His Val He Tyr Asp Ala Val He Val Pro Gly Ala Trp His Val Ser 
930 935 940 

Ala Phe Leu Glu Ala Ala Gin Glu Val Phe Gly Pro Val Pro Cys Ala 
945 950 955 960 

Val Ser Asp Val Met Met Arg Gin Ala Leu Ala He Pro Pro Asp Thr 
965 970 975 

Pro Val Thr Val Gin Ala He Val Thr Pro Gly Glu Asp Gly Glu Ala 
980 985 990 

Lys Val Gin Val Phe Ser Gin Asp Gly Asp Ser Trp Lys Leu His Thr 
995 1000 1005 

Ala Ala Ser Leu Arg Ala Ala Thr Ala Gly Ala Val His Phe Glu Leu 
1010 1015 1020 

Pro Ala Gin Pro Ser Glu Val He Ser Gly Asp Ala Phe Tyr Gly Ala 
1025 1030 1035 1040 

Met Asn Ala Arg Gly Val Asp Leu Gly Pro Ala Phe Ser Trp Val Glu 
. 1045 1050 1055 

Glu Val Trp Arg Arg Asp Gly Glu Ala Leu Gly Arg Met Arg Leu Pro 
1060 1065 1070 

Val Ala Glu Asp Gly Ala Asn Ala Tyr Arg Leu His Pro Gly Leu He 
1075 1080 1085 

Asp Ser Cys Phe Gin Val Phe Gly Ala Thr Trp Pro Ala Glu Arg Cys 
1090 1095 1100 

Gin Pro Gly Ala Tyr Val Pro Val Gly He Glu Ala Val Arg Phe Tyr 
1105 1110 1115 1120 

Arg Pro Pro Ala Gly Ser Leu Arg Cys His Ala Arg Leu Arg Pro Ser 
1125 1130 1135 

Ser Ser Gly Pro Phe Val Gly Asp Leu Thr Leu Val Glu Glu Thr Gly 
1140 1145 1150 

Ala Val He Ala Glu Phe Ser Gly Leu Ala Val Met His Ala Gly Thr 
1155 1160 1165 

Leu Gin Ser Ala Gin Ser Trp Leu Gin Asp Val Gin Trp Gin Glu Cys 
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Glu Arg Ser Thr Thr Leu Lys Ser Asp Gly Pro Gly Lys Pro Glu Asp 
1185 1190 1195 1200 

Trp Leu Leu Cys Ala Gly Ala Asp Asp Val Ala Gly Leu Met Pro Gin 
1205 1210 1215 

Glu Leu Arg Val Val Ser Gly Val Thr Leu Arg Gin Ala Leu Glu Gin 
1220 1225 1230 

Thr Gin Thr Leu Val Gly Arg Pro Ala Arg Leu Trp Leu lie Thr Arg 
1235 1240 1245 

Gly Val His Arg lie Ser Asp .Asp Asp Ala Thr Pro Val Asp Pro Phe 
1250 1255 1260 

Gin Ala Pro Leu Trp Gly Leu Gly Gin Ala lie Ala Arg Glu His Pro 
1265 1270 1275 1280 

Glu Leu Trp Gly Gly Leu He Asp Leu Gly Cys Asp Asn Ala Asp He 
1285 1290 1295 

Ala Ala Ala Met Leu Leu Asp Glu He Arg Tyr Ala Gly Asp Asp Lys 
1300 1305 1310 

Ala He Ala Leu Arg Asn Gly Arg Arg Tyr Val Arg Arg Leu Val Arg 
1315 1320 1325 

His Lys Glu Thr Ser Lys Arg Pro Pro Ala He Ser Ala Asp Gly Val 
1330 1335 1340 

Tyr Leu He Thr Gly Gly Leu Gly Ala Leu Gly Arg Arg Val Ala Arg 
1345 1350 1355 1360 

Arg Leu He Glu Gin Gly Ala Arg Arg Leu Val Leu Val Gly Arg His 
1365 1370 1375 

Thr Glu Ala Val Ala Asp Leu Glu Gin Leu Gly Ala Ala Val Met Val 
1380 1385 1390 

Ala Ala Cys Asp Val Ser Ser Glu Gin Gin Leu Ala Ala Leu Leu Ala 
1395 1400 1405 

Asp Pro Arg Thr Gin Pro Leu Arg Gly Val Val His Ala Ala Gly Val 
1410 1415 1420 

Leu Asp Asp Gly Val Val Thr Glu Gin Thr Trp Ala Arg Phe Glu Lys 
1425 1430 1435 1440 
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Val Leu Ala Pro Lys Leu Gin Gly Ala Trp Asn Leu His Gin Leu Thr 
1445 1450 1455 

Arg His His Ala Leu Asp Phe Phe Val Leu Phe Ser Ser Ala Ala Ser 
1460 1465 1470 

Leu Leu Gly Ser Ala Gly Gin Ser Asn Tyr Ser Ala Ala Asn Ala Phe 
1475 1480 1485 

Leu Asp Ser Leu Ala His Met Arg Arg Ala Gin Gly Leu Pro Ala Leu 
1490 1495 1500 

Ser He Asn Trp Gly Pro Trp Ala Gly Glu Gly Met Ala Ala Arg He 
1505 1510 1515 1520 

Ala Arg Gin Gly Leu Pro Gly Val Pro Leu Leu Pro Pro Glu Val Gly 
1525 1530 1535 

Ala Arg He Phe Gly Asp Leu Leu Gly Glu Thr Ala Ala Gin He Ala 
1540 1545 1550 

Val Phe Gin Val Ser Ala Glu Lys Arg Arg Ser Pro Ala Ser Asp Pro 
1555 1560 1565 

Gly Phe He Gin Gin Leu Thr Glu Ala Ala Pro Glu Arg Arg Gin Glu 
1570 1575 1580 

Leu Leu Gin Met Arg He Arg Lys Gin Ala Gly Gly Val Leu Ala Leu 
1585 1590 1595 1600 

Asp Ala Ser Lys Thr Leu Asp Pro Arg Arg Pro Leu Lys Glu Tyr Gly 
1605 1610 1615 

Leu Asp Ser Leu Met Ala Leu Asp Leu Ala Arg Ala He Gly Glu Leu 
1620 1625 1630 

Val Arg Lys Ser Leu Pro Ala Thr Leu Leu Tyr Asp His Pro Thr Val 
1635 1640 1645 

Glu Lys Leu Ala Gly His Val Leu Arg Glu Leu Gly Leu Asp Val Pro 
1650 1655 1660 

Ser Asp Ser Leu Val Asp Glu Val Arg Gin Leu Ser Glu Gin Glu Met 
1665 1670 1675 1680 



Ala Ala Phe He Thr Glu Thr Leu His His Leu Gly Glu 
1685 1690 



Glu Arg 
1695 
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<210> 126 
<211> 1434 
<212> PRT 
<213> bacterie 

<400> 126 

Met Ser Asp Leu Thr Pro Leu Gin Gin Ala Val Leu Ala Leu Lys Arg 



Thr Arg Ala Arg Leu Asp Glu Leu Glu Ser Val His Asn Glu Pro lie 
20 25 30 

Ala lie Val Gly Met Ala Cys Arg Phe Pro Gly Ala Asp Ser Pro Glu 



Ala Phe Trp Gin Leu Leu His Asp Gly lie Asp Ala lie Arg Glu lie 
50 55 60 

Pro Ala Gly Arg Trp Asp Ala Asp Ala Phe Tyr Asp Pro Asp Pro Asn 
65 70 75 " 80 

Ala Pro Gly Lys Met Tyr Thr Arg Leu Gly Gly Phe Leu Asp Gly Ala 



Val Asp Gly Phe Asp Ala Gly Phe Phe Gly lie Thr Pro Arg Glu Val 
100 105 110 

Ala Gly Leu Asp Pro Gin Gin Arg Leu Leu Leu Glu Val Ala Trp Glu 
115 120 125 

Ala Leu Glu Arg Ala Gly Arg Pro Pro Asp Ser Leu Ala Gly Ser Asp 
130 135 140 

Thr Gly Val Phe He Gly He Ser Thr Asp Asp Tyr Ser Arg Leu Lys 
145 150 155 160 

Pro Thr Asp Pro Ala Leu He Asp Ala Tyr Thr Gly Thr Gly Thr Ala 
165 170 175 

Phe Ser Thr Ala Ala Gly Arg He Ser Tyr Leu Leu Gly Leu Gin Gly 
180 185 190 

Pro Asn Phe Pro Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala Val 
195 • 200 205 

His Leu Ala Cys Arg Ser Leu Gin Ser Arg Glu Cys Ser Met Ala Leu 
210 215 220 

Ala Gly Gly Val Asn Leu He Leu Ala Pro Glu Ser Thr He Tyr Phe 
225 230 235 240 
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Cys Arg Leu Arg Ala Met Ala Ala Asp Gly Arg Cys Lys Ser Phe Ala 
245 250 255 



Ala Ser Ala Asp Gly Tyr Gly Arg Gly Glu Gly Cys Gly Met Leu Val 
260 265 270 



Leu Lys Arg Leu Ser Asp Ala Thr Arg Asp Gly Asp Arg lie Leu Ala 
275 280 285 



Leu lie Arg Gly Ser Ala Val Asn His Gly Gly Arg Ser Asn Gly Leu 
290 295 300 



Thr Ala Pro Asn Gly Pro Ala Gin Glu Ala Val He Arg Ala Ala Leu 
305 310 315 320 



Lys Asn Ala Gly Met Ala Pro Ala Asp Val Asp Tyr Val Glu Ala His 
325 330 335 



Gly Thr Gly Thr Pro Leu Gly Asp Pro He Glu Leu Arg Ala Met Ala 
340 345 350 



Ala Val Leu Gly Glu Gly Arg Ala Val Asp Ser Pro Leu He Val Gly 
355 360 365 



Ser Val Lys Thr Asn Phe Gly His Leu Glu Ala Ala Ala Gly He Ala 
370 375 380 



Gly Leu He Lys Thr He Leu Ala Leu Gin His Arg Glu He Pro Pro 
385 390 395 400 



His Leu His Phe Asn Ala Pro Asn Pro His Val Leu Trp Asn Glu Leu 
405 410 415 



Pro Leu Lys He Ala Thr Ala Cys Ser Pro Trp Pro Ser Asn Gly Arg 
420 425 430 



Pro Arg Val Ala Gly Val Ser Ser Phe Gly He Ser Gly Thr Asn Ser 
435 440 445 



His Val Val Leu Ala Glu Ala Lys Thr Asn Val Glu Ala Lys Thr Asn 
450 455 460 



Val Glu Ala Lys Thr Asn Val Glu Ala Lys Thr Ser Glu Glu Val Lys 
465 470 475 480 



Ala Ser Val Glu Ala Lys Gly Asn Val Glu Ala Lys Ala Ser Ala Ser 
485 490 495 



Val Pro Leu Leu Glu Gly Asp Ser Arg Pro Arg Ser Gly Gly Gly Gly 
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Ser Gly Arg Pro Pro Ser Arg Glu Glu Val Pro Val Pro Asp Gin Leu 
515 520 525 

His Ala Glu Asp Gly Arg Glu Tyr Leu Leu Pro Leu Ser Ala Arg His 
530 535 540 

Pro Gin Ala Leu Arg Asp Leu Ala Gly Ala Tyr Arg Asp Gly Arg Phe 
545 550 555 560 

His Ala Pro Leu Ser Ala Leu Cys Ser Ala Ala Ser Leu Thr Arg Ser 
565 570 575 

His Tyr Glu His Arg Ala Ala Phe Val Ala Ser Ser Leu Pro Glu Phe 
580 585 590 

Asn Gin Leu Leu Glu Ala Phe Arg Arg Asn Glu Thr Asn Arg Gly Val 
595 600 605 

Ala Thr Gly Phe Ala Asp Pro Gly Val Arg Pro Lys Leu Ala Phe He 
610 615 620 

Phe Ser Gly Gin Gly Gly Gin Tyr Pro Arg Met Ala Tyr Arg Leu Tyr 
625 630 635 *~ 640 

Ser Asp Glu Pro Val Phe Arg Ser Ala He Glu Arg Cys Asp Ala Ala 
645 650 655 

Phe Arg Ser Phe Val Glu Trp Arg Leu Ala Asp Leu Leu Ala Asp Glu 
660 665 670 

Ser Gly Ala Trp Leu Ser Gin He Asp Arg Val Gin Pro Ala Leu Phe 
675 680 685 

Ala Val Gin He Ala Leu Val Glu Leu Leu Gin Ser Trp Gly He Arg 
690 695 700 

Pro Asp Gly Val Ala Gly His Ser Met Gly Glu Val Ala Ala Ala His 
705 710 715 720 

Val Ala Gly He Leu Thr Leu Glu Asp Ala Ala Arg He He Cys Arg 
725 730 735 

Arg Ser Arg Leu Leu Leu Gly Leu Arg Gly Arg Gly Ala Met Ala Leu 
740 745 750 



Val Glu Leu Pro Leu Asp Arg Ala Lys Ala Val Leu Ala Glu Arg Gly 
755 760 755 
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144 



Leu Thr Thr Val Ser Val Ala Ala Ser Asn Gly Pro Arg Ser Thr Val 
770 775 780 

Phe Ser Gly Asp Arg Val Ala Leu Glu His Leu Lys Asp Asp Phe Glu 
785 790 795 ^ 800 

Arg Arg Gly Val Phe Cys Arg Leu He Gin Val Asp Val Ala Ser His 
805 810 815 

Ser Ser Gin Val Asp Pro Leu Glu Asn Glu Leu Arg Gin Glu Leu Gly 
820 825 " 830 

Arg Val He Ala Lys Arg Ser Ala Val Pro Phe Phe Ser Thr Val Glu 
835 840 845 

Gly Gin Leu Ser Thr Gly Glu Ala Cys Asp Ala Ser Tyr Trp Val Ala 
850 855 860 

Asn Leu Arg Gin Pro Val Arg Phe Trp Glu Ser Leu Gin Ala Met Ala 
865 870 875 880 

Gly Asp Glu Phe Thr Gin Phe Leu Glu He Ser Pro His Pro Val Leu 
885 890 895 

Thr Pro Ser He Glu Asp Ser Leu Arg Thr Leu Gly He Asn Gly Leu 
900 905 910 

Val Arg Pro Val Leu Arg Arg Asp Glu Pro Glu Arg Arg Glu Leu Leu 
915 920 925 

Glu Leu Leu Ala Ala Leu Tyr Val Asn Gly Gin Arg Pro Asp Trp Arg 
930 935 940 

Ala Leu Ala Ser Ser Pro Asp Thr Arg Leu Asp Leu Pro Thr Tyr Pro 
945 950 955 960 

Trp Gin Arg Glu Arg Phe Trp Phe Ala Thr Ser Thr Arg Arg Ser Leu 
965 970 975 

Pro Ala Val Gly Gly His Pro Leu Leu Gly Arg Lys Val Glu He Ala 
980 985 990 

Leu Ala Pro Asp Thr His Val Trp Glu Ser Val Leu Ser Leu Asp Ala 
995 1000 1005 

Leu Pro Phe Leu Ala Asp His Arg Leu Asn Glu Leu Val Val Leu Pro 
1010 1015 1020 



Gly Ala Ala Tyr Val Glu Met Ala Leu Ala Ala Ala Lys Glu Val Phe 
1025 1030 1035 1040 
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Ala Gly Gly Cys Ser Leu Glu Glu He Arg Phe Glu Gin Met Leu Val 
1045 1050 1055 

Val Pro Ser Ala Gly Ala Ser Arg Val Gin Val He Leu Glu Gly His 
1060 1065 1070 

Ala Phe Arg He Ser Ser Leu Ala Glu Gly Gly Ser Asp Trp Thr Glu 
1075 1080 1085 

His Ala Arg Gly Thr Met Ala Ala Ala Pro Asp Lys Val Ala Pro Thr 
1090 1095 1100 

Val Ser Leu Pro Thr Leu Gly Asp Arg He Glu Gly Asp Asp Phe Tyr 
1105 mo 1115 * 1120 

Ala Ala Phe Ala Ser Gin Gly Met His Tyr Gly Asp Thr Phe Arg Gly 
H25 H30 H35 

He Ala Glu Val Trp Arg Arg Asp Gly Glu Ala Val Ala Arg Leu Ser 
1140 1145 1150 

Val Pro Asp Ala Val Arg Glu Ala Glu Ser Gly Tyr Thr Leu His Pro 
1155 1160 1165 

Ala Leu Leu Asp Ala Cys Leu Gin Val Leu Gly Ala Thr Leu Gly Gly 
1170 1175 1180 

Glu Gly Ser Ala Gly Pro Cys Val Pro Val Ala He Glu Arg Leu His 
H85 1190 1195 1200 

Cys Phe Gly Arg Pro Ala Gly Asp Leu Arg Val His Ala Arg Leu Thr 
1205 1210 1215 

Gly Arg Leu Glu Gly Asp Val Thr Leu Cys Asp Ala Glu Gly His Val 
1220 1225 1230 

He Leu Glu Val Gin Gly Leu Arg Ala Gin Glu Leu Glu Arg Gin Ser 
1235 1240 1245 

Glu Trp Phe His Ala Met Glu Trp Glu Pro Gin Leu Leu Ala Glu Ser 
1250 1255 1260 

Pro Thr Ala Thr Val Ser Gly Ala Trp Leu Val He Ala Asp Ala Gly 
1265 1270 1275 1280 

Gly He Ala Ala Ala Val Ala Arg Gly Leu Gly Thr Asn Thr Val Val 
1285 1290 1295 

He Ser Gly Arg Asp Ala Glu He Pro Asp Gin Pro Tyr Arg Gly Val 
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1300 1305 1310 

He His Cys Gly Ser Leu Asp Glu Thr Glu Asp Glu Thr Asp Pro Ser 
1315 1320 " 1325 

Ala Ala Gly Gly Thr Ala Cys Glu Asp He Leu Arg He Val Gin Glu 
1330 1335 1340 

Phe Gly Val Gly Arg He Gin Leu Thr Lys Gin Ala Ser Asp Ala Glu 
1345 1350 1355 1360 

Ser Gin His Pro Arg He Trp Leu He Thr Ala Gly Val His Ala Glu 
1365 1370 1375 

His Leu Gin Met Pro Val Val Pro Ala Arg Ala Pro Val Trp Gly Leu 
1380 1385 1390 

Gly Arg Thr He Ala Ala Glu His Pro Glu Phe Ala Cys Thr Cys He 
1395 1400 • 1405 

Asp Leu Asp Thr Ala Gly Glu Val Glu Val Gin Ala Leu Cys Arg Glu 
1410 1415 1420 

He Leu Ala Gly Ser Ser Glu Arg Gin Gly 
1425 1430 



